Boltz-2 vs. FEP? A False Dichotomy. Synergy is the Future

Boltz-2 vs. FEP？这是个伪命题。强强联合才是未来作者：David “Dap” Pearlman 人工智能模型 Boltz-2 声称在配体亲和力预测方面取得了一些惊人的进步。但它最大的价值可能在于虚拟筛选和亲和力漏斗（Affinity Funneling）领域。 FEP 和 Boltz-2：携手并进！人工智能/机器学习（AI/ML）的旋风从未停歇。如果你对各种消息都信以为真，会越来越觉得，我们距离用一个足够大的神经网络解决所有生物学难题，只差一篇惊天动地的新闻稿了。好了，收起你的白眼吧。尽管如此，刚刚发布的 Boltz-2 AI/ML 模型所做的声明——尤其是在预测配体与蛋白质的结合亲和力方面——确实引人入胜。但空口无凭。让我们深入探究。超越迭代：Boltz-2 带来了什么？与其前身 Boltz-1 相比，这次的新迭代似乎是向前迈出的重要一步。作者报告称，其在各种分子类型（蛋白质、RNA、DNA-蛋白质复合物等五花八门）上的结构准确性都有所提高。他们特别强调了在抗体-抗原复合物这类出了名的棘手体系上取得的进展。这些改进似乎部分归功于一些聪明的数据策略，例如使用“大型蒸馏集”（来自其他模型如 AlphaFold 甚至 Boltz-1 自身的高置信度预测）来创造更多的训练样本，特别是对于那些实验数据稀缺的体系，如 RNA 和 DNA-蛋白质复合物。Boltz-2 还着力在训练集中加入了更多的动态信息。它不再局限于 PDB 数据库中静态的晶体学“快照”，而是整合了 NMR 谱学系综和分子动力学（MD）模拟数据。这使得它能够预测并使用像 B-因子（B-factors）这样的性质进行训练，并能根据实验方法类型（如 X 射线、NMR 或 MD）来生成特定条件的结构。此外，它在施加距离约束和多聚体模板方面的功能也有所改进。而且，也许最棒的是，和 Boltz-1 一样，它是开源的，代码和权重都免费提供，这极大地激励了学术界和生物技术界的创新与验证。入局挑战：Boltz-2 与 AlphaFold3 的阴影尽管 AlphaFold3 为结构预测领域划下了一条新的起跑线，并声称可以预测配体/蛋白质的结构，但它在评估一组配体的相对结合能力方面并没有提供太多帮助。Bolt-1 也是如此。而这正是 Boltz-2 可能改变游戏规则的地方。当然，它也必将引发巨大的关注。亲和力的诱惑：为何 Boltz-2 的声明如此引人注目？这正是 Boltz-2 做出其最大胆声明的地方，也是其论文中所描述的结果“如此诱人”的原因。以 AI 模型的速度获得相当准确的配体结合亲和力估值，这一前景有望为那些可以为了通量而牺牲部分准确性的工作流程带来颠覆性的改变。特别是，计算药物发现领域一直缺少能够处理虚拟筛选活动后产生的数千个多样性化合物的解决方案——这个数量对于今天的计算资源来说，即使是绝对自由能微扰（FEP）也太多了，而快速打分函数（如对接分数、MM/GBSA 等）又无法对它们进行有效排序。作者声称，Boltz-2 “在计算效率上比 FEP 至少高出 1000 倍”，同时在某些基准测试中的表现接近 FEP。他们选对了目标：FEP/TI（热力学积分）无疑是我们目前拥有的用于高精度结合评估的最佳计算工具。论文展示了一些引人注目的图表。也许最亮眼的就是在 FEP+ 基准测试集的 OpenFE 子集上的结果，其中 Boltz-2 的表现接近 FEP 本身，Boltz-2 的皮尔逊 R² 为 0.38，而 OpenFE 为 0.40，FEP+ 为 0.52（我冒昧地将论文中的 R 值转换为了 R²，因为这是现代自由能文献中更常见的度量方式）。他们还在最近的 CASP16 亲和力挑战赛的化合物上展示了同样诱人的好结果。但必须指出，尽管 Boltz-2 的预测令人印象深刻——考虑到 1000 倍的速度提升，甚至可以说是惊人的——它与 FEP+ 之间的差异仍然相当显著，特别是考虑到 FEP 在药物发现中的应用方式——下文将详细阐述。但我们别高兴得太早：FEP 并未过时毫无疑问，Boltz-2 很酷。但在我们开始质疑为何还要做 FEP 之前，让我们先戴上怀疑者的帽子。每个科学家都需要一顶这样的帽子，尤其是在驾驭 AI/ML 炒作这片时常波涛汹涌的水域时。值得称赞的是，Boltz-2 的论文对其目前的局限性保持了相当的透明度。我认为，这里最大的警示信号是作者报告的，当试图将 Boltz-2 应用于来自其合作伙伴 Recursion 的八个盲测配体/靶标数据集时的结果。对于这些数据集，他们仅在三个集合上实现了皮尔逊 R² > 0.30，而在其他五个集合上表现“有限”。每个集合都包含数百个实验测定点，总体而言，对于这八个集合，平均皮尔逊 R² = 0.15，平均肯德尔 Tau 仅为 0.23。这些数值虽然显著优于其他机器学习方法在这些集合上的表现（如 GAT, BACPI），但对于许多实际应用场景来说，这样的 R² 值实在是太低了。这些在真实的 Recursion 数据集上的结果让人不禁怀疑，在那些预测效果较好的测试/验证集和训练数据之间，是否存在着微妙的数据泄漏——尽管论文作者描述了他们通过排除与验证/测试集有 ≥ 90% 相似性的蛋白质来防止明确泄漏的努力。图14 来自 Passaro 等人的论文《Boltz-2：迈向准确高效的结合亲和力预测》。这些图表展示了 Boltz-2 在 Recursion Pharmaceuticals 提供的八个未发表的盲测数据集上的预测与实验行为。其中大多数缺乏可指导行动的相关性，这令人警醒。与 FEP 方法相比，Boltz-2 的一个主要局限性在于它仍然依赖于蛋白质受体位点的结构。与 FEP 和 TI 等自由能方法不同，这种打分方法无法调整结合位点以适应起始配体/蛋白质构象中的微小问题。它也无法反映结合位点为适应不同结合物而进行的调整。因此，尽管这个 AI/ML 模型相当复杂，但归根结底，它仍然建立在那个曾让许多其他打分方法停滞不前的“锁-钥模型”之上。（Boltz-2 试图通过在模型拟合过程中整合动态信息来部分缓解这个问题。）这可能已经接近了该模型所能达到的极限（嘿，对于相对评估来说，它已经比传统的对接分数好太多了！），但到某个点，你终究得为蛋白质的柔性买单。而一旦你这么做，你的计算成本很可能会上升几个数量级，然后，哇哦！你又回到了 FEP 的领域。 Boltz-2 的第二个严重局限性是，它没有包含对溶剂（水）、金属、离子或辅因子的显式模型（溶剂是隐式处理的）。对于许多体系来说，这种简化是个非常、非常糟糕的大问题。作为一名工业界的计算化学家，你只能接受现实，如果你正在研究的体系的结合是由这些因素中的任何一个介导/控制的（很多体系都是如此），那么 Boltz-2 可能帮不了你。但值得注意的是，CASP16 挑战集中的几个体系确实包含了辅因子，而 Boltz-2 在这些体系上似乎表现得相当不错。所以现实情况可能会更微妙，且依赖于具体体系。 Boltz-2 能否解决对接的“漏斗”根本问题？话虽如此，即使是像我这样在这个领域里cynical old timer，也不禁感到好奇。与其说它能取代 FEP 用于苗头到先导化合物的后期优化，不如说它提供了一种可能在虚拟筛选漏斗的底部提供增量价值的方法，而目前没有任何方法能在该阶段提供必要的准确性和速度组合。（参见 Sindt, Bret, 和 Rognan 最近发表的优秀论文。）在那个阶段应用一种有信号的方法的神奇之处在于，你仍然在玩一个大数游戏，你不必每次都对——你只需要在总体上是正确的，并且能够可靠地富集从（比如说）10,000个化合物到几百个化合物的苗头数量。论文中对此的可行性进行了一些论证，首先是在先前发表的 MF-PCBA 基准测试上（Boltz-2 在此取得了不错的富集效果），然后是通过比较 Boltz-2 如何对潜在的 TYK2 结合物进行打分，这些结合物既包括随机分子，也包括被特别鉴定为具有良好结合能力的分子（来自各种公共来源和他们自己的 SynFlowNet 方法）。经验上，Boltz-2 对非随机化合物的总体排名更好。在对这些化合物的绝对结合自由能计算与 Boltz-2 进行更严格的比较中，获得了 R² = 0.55 的良好相关性。如果这种可靠性能被广泛证实，这将成为一种改变游戏规则的、用于虚拟筛选的重打分方法。然后是亲和力漏斗（Affinity Funneling）：Boltz-2 和 FEP 携手合作虽然虚拟筛选漏斗是药物化学家最熟悉的，但在药物化学家和计算化学家之间，价值链的更下游还有另一个漏斗。药物化学家非常擅长快速提出想法，而一个优秀的药物化学家可以轻易地提出超出计算化学家现有评估能力的想法数量。因此，我预计 Boltz-2 也将在这里介入这个过程。我正在构想一个工作流程——我称之为“亲和力漏斗”（Affinity Funneling）——化学家带着一长串想法进来，Boltz-2 被用来将其筛选成一个更短的列表，使其与在要求的时间内可用于 FEP 的资源相匹配，然后将 FEP 应用于这个缩减后的列表以获得更可靠的结果。如果这行得通，它可以将当前的模式（化学家的想法清单通常相对较小）转变为一种新模式，即由药物化学家发起的更广泛的自动化枚举（例如“在所有这些 R 位点上进行卤素和甲基取代的所有组合”）输入到 Boltz-2 中，然后最好的结果再通过 FEP 进行计算。Boltz-2 和 FEP 之间的协同作用甚至可能增加 FEP 的整体价值和使用率。不是对抗，而是合作的力量！这种 AI + 物理的混合模式，正如同机器学习正在增强材料科学和气候建模等领域一样。如果 Boltz-2 在分流筛选中继续显示出信号，它将适用于虚拟筛选和亲和力漏斗工作流程，如图所示。两者都是高价值的应用，而 Boltz-2 催生的新“亲和力漏斗”工作流程可能会增加 FEP 的使用，因为它能将可用的 FEP 计算管线与药物化学家的最大创意产出速率相匹配，同时解放药物化学家进行更广泛的组合思维。盘点：Boltz-2 最终可能的位置那么，Boltz-2 在宏伟蓝图中处于什么位置？它似乎是 Boltz-1 的一个显著进步，并且在结合亲和力和模型可控性等领域提出了可信的挑战，旨在相对于 AlphaFold3 和其他竞争者开辟自己的生态位。快速、合理准确的结合亲和力估算的潜力确实引人注目，并可能显著加速药物发现马拉松的某些阶段。我们或许真的有了一个可以应用于虚拟筛选漏斗底部的工具，这个想法非常令人兴奋，同样令人兴奋的还有参与“亲和力漏斗”的潜力。这些是我将密切关注的应用。另一方面，作为一种在苗头到先导化合物的后期优化过程中取代 FEP 或 TI 等自由能工具的工具？我看不到 Boltz-2 能取得巨大进展。要理解为什么，你需要考虑这些方法是如何被使用的。FEP（或 TI）通常应用于项目的实验阶段，化学家可能会提出几个（或几十个）想法，然后问：“我有这些想法。我只有几天时间来合成几个。你建议我做哪些？”为了有把握地回答这样的问题，我们需要依赖这样一个事实：现代 FEP 计算通常能精确到 1 kcal/mol 或更好，并伴随着通过 ROC 分析等衡量的相应富集效果。从 FEP 计算被引入至今，我们花了整整 40 年时间，才让采样和力场发展到让化学家和建模者都感到足够放心的地步，认为我们可以以适当的可靠性水平回答这些问题。Boltz-2 的结果，虽然在抽象层面上令人印象深刻，但无疑是一个巨大的退步。对于 OpenFE 基准测试，这是从 R² = 0.52 下降到 0.38。（是的，R² 是一个很差的指标，但在这个范围内如此大的差异通常是实质性的。）对于一个成功依赖于这些结果的化学家来说，这很容易就是“有趣，请继续”和“抱歉，下一个”之间的区别。毫无疑问，有些人会看到这些充满希望（但较差）的结果，然后想：“我们快成功了。”但我们怎么才能更进一步呢？Boltz-2 已经吞噬了作者能找到的所有结合数据，但受限于 Landrum 和 Riniker 在其论文中戏剧性呈现的不同来源数据的可重复性问题。高质量的实验配体结合数据（IC50、Ki 等）严重落后于配体/受体相互作用的广阔空间，而且这种情况短期内不太可能改变（除非用[合成的]计算结合数据来增强）。AI/ML 还受困于众所周知的可解释性问题，这使得找出需要什么来改进预测变得模糊不清。因此，情况更可能是“我们不只是快到了，我们几乎已经走到了路的尽头”——至少在数据生成或模型架构出现新突破之前是这样。事实上，Boltz-2 的作者自己也承认，解决当前的局限性“将需要在扩展和整理训练数据、改进模型架构以及整合额外的生化背景方面进行未来的工作。”当然，这些都是整个 AI 领域的活跃研究领域，但它们在亲和力预测这个复杂问题上的应用仍然是一个前沿领域。如果是这样的话，那么，FEP 领域仍然有巨大的改进空间，特别是在更好的力场和更好的采样方面。对于前者，我一直在 QSimulate 参与一项将量子力学带入主流的努力，我们基于 QM/MM 的 FEP 现在已经成为现实，它拓宽了 FEP 计算的适用范围和准确性，超越了即使是最好的经典力场所能达到的水平。通过更快的 GPU 和巧妙的实现思路，采样也在持续改进。与 AI/ML 相比，基于物理的方法的美妙之处在于，我们可以识别缺点并专注于改进它们。一个强大的工具，如果你知道该指向何方与所有新工具一样，实践是检验真理的唯一标准——在独立验证中，在真实世界的应用中，以及在它如何应对该领域不可避免地转向下一个大事件时。Boltz-2 最大的影响可能不是作为高精度方法的直接替代品，而是在被巧妙地应用于弥合快速对接打分和更严格的自由能方法之间的差距时，例如用于虚拟筛选苗头化合物的分流筛选，或用于评估那些将要用更准确（但更慢）的 FEP 进行评估的配体。“亲和力漏斗”甚至可能导致对 FEP 的需求增加！当然，一个大问题依然存在：如果额外结合数据的稀缺性和锁-钥模型意味着我们正在接近静态 AI 受体-配体打分模型所能达到的极限，那么下一次飞跃将来自何方？我相信未来的改进将来自于 AI/ML 技术与那些经过数十年发展和完善的基础性、基于物理的方法之间的智能协同。Boltz-2 的开源性质，以及为特定感兴趣的目标谨慎地向训练集中添加数据的能力，可能使得即使在基础模型在你有（或使用基于物理的方法生成）大量相同或相似系统上的额外数据的情况下信号有限时，也能改进 AI 模型。这表明，即使 Boltz-2 最初在某个目标上表现不佳，通过定制训练和额外数据，进一步的改进也是可能的。毫无疑问，这是一个激动人心的时代。真正的力量不在于取代数十年的基础科学，而在于智能地整合像 Boltz-2 这样的 AI 工具来开启新的前沿。拥抱这种协同作用以及用目标数据改进模型的能力，才是我们能够现实地期望在长期内加速药物发现的方式。AI 创新与物理理解之间的这种迭代之舞，才是真正突破将要涌现的地方。

Machine Learning & AI · 2025-06-24

1000x Speedup, FEP-level Accuracy: Deep Analysis of Boltz-2's Binding Affinity Prediction

千倍加速，精度接近FEP：深入解析Boltz-2的结合亲和力预测引言：挑战亲和力预测的“速度-精度”壁垒在计算机辅助药物发现（CADD）领域，结合亲和力的预测长期以来面临一个核心的权衡困境：速度与精度。一方面，以自由能微扰（FEP）为代表的、基于物理模拟的方法，凭借其严谨的理论基础，能够提供最高的预测精度，被誉为领域的“金标准”；但其高昂的计算成本（通常需要数天GPU时）使其应用场景受限，难以进行大规模筛选。另一方面，以分子对接（Docking）为代表的快速方法，虽然能在数秒内完成计算，但其精度往往不足以在先导化合物优化等阶段提供可靠的指导。在两者之间，各类机器学习（ML）方法层出不穷，但迄今为止，在公开基准上，鲜有AI模型能在预测准确性上展现出与FEP方法相抗衡的性能。Boltz-2的问世，正是为了正面挑战这一壁垒。它不仅是一个结构预测模型，其核心突破之一在于构建了一个强大的亲和力预测模块。该模块根植于模型对生物分子相互作用的深层结构表示，通过对海量含噪数据的精细化处理和创新的训练策略，首次在AI模型中实现了接近FEP的精度与远超对接的速度的结合。本文将深入Boltz-2的心脏地带，详细剖析其亲和力预测的数据管理、模型架构、训练策略、性能评估以及前瞻性应用的全流程。 1. 数据管理(Data Curation)：在噪声中淘金 Boltz-2亲和力预测成功的基石，在于其前所未有的大规模、高质量的数据管理(Data Curation)策略。团队深知，公共数据库（如PubChem, ChEMBL, BindingDB）中的亲和力数据虽浩如烟海，但因实验方案各异、噪声巨大而难以直接使用。为此，他们设计了一套精密的“淘金”流程。为同时服务于药物发现的早期（苗头发现）和中后期（先导优化）阶段，Boltz-2构建了一个包含二元标签（结合/不结合）和连续值亲和力的混合数据集。其数据管线（Data Pipeline）极其精细，旨在从海量的、良莠不齐的公共数据中筛选出最可靠、信息量最大的部分。 1.1 通用数据处理与质量控制在处理具体数据类型之前，所有数据源都经过了统一的预处理流程：多源整合：数据集整合了多个公共来源，包括PubChem, ChEMBL, BindingDB, 以及专门的CeMM片段筛选数据集和MIDAS代谢物相互作用组数据集。详见之前的推送。配体标准化：所有配体分子都经过ChEMBL结构管线（ChEMBL Structure Pipeline）进行标准化处理，以确保化学表示的一致性。结构质量过滤：由于模型是基于结构的，训练样本的靶点结构质量至关重要。该管线应用了一种避免引入选择偏倚的过滤策略：对每个实验（assay），使用Boltz-2自身的置信度模块，对随机10个结合物的复合物结构进行预测，并计算平均的界面TM-score（ipTM）。只有当平均ipTM分数高于0.75时，该实验的全部数据才被保留，从源头上确保了训练样本的结构可靠性。 1.2 连续值亲和力数据的处理管线这部分数据主要用于模型的回归任务，以学习精确的构效关系。 graph TB subgraph "阶段一：数据源整合与通用处理" direction TB A[ChEMBL 数据库] --初步提取与过滤--> D; B[BindingDB 数据库] --ChEMBL未覆盖的--> D; D["**通用数据处理** 「移除PAINS, 过滤重原子>50的分子」"]; end subgraph "分支B：Hit-Discovery 数据" direction TB G1["**高多样性筛选** 保留化学结构多样的实验"]; G2["**数据量过滤** 保留数据点>100的实验"]; G3["**标签二元化** 将亲和力值转换为“活性”或“非活性”"]; G_OUT[产出: **大规模二元标签数据集**]; %% 在此明确定义垂直连接 %% G1 --> G2; G2 --> G3; G3 --> G_OUT; end subgraph "分支A：Hit-to-Lead 数据" direction TB F1["**高相似性筛选** 保留化学结构相似的系列"]; F2["**信息量过滤** 剔除数据点少、活性范围窄的实验"]; F3["**数据质量过滤** 处理限定符、剔除异常亲和力值"]; F_OUT[产出: **精炼的连续值数据集**]; %% 在此明确定义垂直连接 %% F1 --> F2; F2 --> F3; F3 --> F_OUT; end D -- "优化阶段「Hit-to-Lead」" --> F1; D -- "筛选阶段「Hit-Discovery」" --> G1; style F_OUT fill:#e8f5e9,stroke:#4caf50,stroke-width:2px style G_OUT fill:#e3f2fd,stroke:#2196f3,stroke-width:2px style D fill:#fff3e0,stroke:#fb8c00,stroke-width:2px 数据提取 (ChEMBL & BindingDB) 从ChEMBL中提取的数据：遵循严格标准，包括置信度得分必须为最高分9，靶点类型限定为单一蛋白，实验类型限定为生化或功能性实验，亲和力类型限定为${K_i, K_d, IC_{50}, XC_{50}, EC_{50}, AC_{50}}$，并排除了被标记为不可靠的数据源。避免数据重复：只保留BindingDB中有但ChEMBL未覆盖的记录。通用处理步骤 (General Curation) 应用PAINS过滤器：移除可能产生实验假象或干扰多种生化读数的分子。重原子数限制：移除重原子数超过50的分子。数据划分：将数据划分为“苗头到先导优化”（hit to lead）和“苗头发现”（hit discovery）两个子集，以便更智能地处理带有不等号的截断数据。在“苗头发现”阶段，>值被视为非结合物；而在“苗头到先导”阶段，则被视为不确定的下限。针对“苗头到先导优化”的深度过滤化学多样性：移除分子间平均Tanimoto相似度过低（$< 0.25$）的实验，以保留那些专注于结构相关分子优化的、真正的“先导优化”数据集。数据量与信息量：排除数据点少于10个、活性值标准差过低（$< 0.25$，无法学习活性悬崖）、或独特活性值过少的实验，确保每个用于训练的实验都包含足够丰富的信息。截断数据处理：严格处理带不等号的数据，例如丢弃所有<限定符的数据，以及活性值$< 10 \mu M$但带有>限定符的数据。不要亲和力太强的：移除任何报告活性值小于$10^{-12} M$的实验，因为这通常意味着单位或注释错误。针对“苗头发现”的过滤数据量要求：实验至少包含100个数据点。化学多样性：保留化学上更多样化的实验（平均Tanimoto相似度$< 0.25$）。活性标记：将所有带有>限定符的数据标记为非活性，而将亲和力=和$< 2.0 \mu M$的数据标记为活性，其余数据则被丢弃。 1.3 二元标签数据的处理管线这部分数据主要用于模型的二元分类任务，其处理核心在于提高标签的可靠性并构建高质量的负样本集。 graph TD subgraph "二元标签数据处理流程" subgraph "数据源一：PubChem HTS" A1["PubChem HTS 数据"] --> B1["初步过滤 「>100化合物, <10%命中率」"]; B1 --> C1["**阳性标签交叉验证** 「必须有关联的定量亲和力值」"]; C1 --> D1["**PAINS过滤 & 负样本降采样** 「~1:9 比例」"] --> E1(PubChem来源 二元数据集); end subgraph "数据源二：CeMM 片段" A2["CeMM 片段筛选数据"] --> B2["**基于置信度打分** 「高置信度->结合物, 诱饵->非结合物」"]; B2 --> C2["**负样本降采样** 「~1:9 比例」"] --> E2(CeMM来源 二元数据集); end subgraph "数据源三：合成诱饵" A3["“苗头到先导”数据集的 **已知活性分子**"] --> B3["**配对采样** 「从同分布的活性分子池中选择诱饵」"]; B3 --> C3["**假阴性控制** 「与已知结合物Tanimoto相似度 < 0.3」"] --> E3(合成诱饵 数据集); end E1 --> F_OUT[("最终的二元标签训练集")]; E2 --> F_OUT; E3 --> F_OUT; end style A1 fill:#e3f2fd,stroke:#1e88e5 style A2 fill:#fff9c4,stroke:#fdd835 style A3 fill:#e8f5e9,stroke:#43a047 style F_OUT fill:#ffebee,stroke:#e53935,stroke-width:4px “诱饵”（decoy）通常指的是那些在实验中表现出没有活性或低活性的化合物。这些化合物在筛选过程中被用来评估模型或实验方法的性能，特别是在区分活性化合物（hits）和非活性化合物（non-hits）的能力上。 PubChem HTS数据的处理: 初步过滤：保留至少测试了100个化合物且命中率低于10%的实验，以过滤掉高噪声或有问题的筛选。阳性标签交叉验证：这是提高标签可靠性的关键一步。对于每个被标记为“Active”的（蛋白质，SMILES）对，管线会反向查询PubChem，确认其必须存在一个独立的、报告了具体亲和力值的条目。只有满足此条件的才被保留为阳性样本。据此估计，约40%的原始HTS“阳性”标签（很可能是假阳性）被过滤掉。负样本降采样：为了平衡正负样本比例，对每个实验中的诱饵（decoy）集进行降采样，达到约1:9的结合物与诱饵比例。 CeMM片段数据的处理：对CeMM片段筛选数据集采用类似的置信度过滤。高置信度（score=2或3）的片段被标记为结合物，标记为诱饵（score=0）的为非结合物，低置信度（score=1）的被移除。同样进行了1:9的负样本降采样。合成诱饵分子的构建 (Synthetic decoys)：这是构建高质量负样本集的另一项创新策略。配对与采样：每个来自“苗头到先导优化”数据集的活性化合物，都会被配对一个“合成诱饵”。这个诱饵分子是从其他活性化合物池中采样的，这确保了正负样本在化学性质的分布上保持一致，防止模型学习到区分两者的“捷径”。避免假阴性：为防止错误地将一个未被发现的活性分子当作诱饵（即假阴性），采样时强制要求诱饵分子与当前靶点所在蛋白簇的所有已知结合物，其Tanimoto相似度必须低于0.3。这一约束极大地降低了引入假阴性的风险。尽管该数据处理管线已相当复杂，但作者也承认，由于公共数据库元数据的不一致性，这仅仅是构建高质量训练集的冰山一角。更深度的标准化（如应用Cheng-Prusoff方程）和实验细节审查，将是未来工作的方向。背景知识：什么是PAINS过滤器？ PAINS (Pan-Assay Interference Compounds)，即泛筛选干扰化合物，特指那些在多种高通量筛选（HTS）实验中都倾向于产生假阳性信号的分子。典型干扰机制与结构特征 PAINS类别干扰机制代表化合物罗丹宁类（Rhodanines）共价修饰靶蛋白常见于文献误报邻苯二酚类（Catechols）氧化还原循环/金属螯合天然产物姜黄素异噻唑酮类（Isothiazolones）非特异性化学反应商业筛选库常见醌类（Quinones）产生活性氧破坏靶标毒黄素（Toxoflavin）核心功能：PAINS过滤器是一个计算工具，通过识别分子中是否存在已知的、会导致非特异性相互作用的化学结构子结构（警报结构），来标记这些潜在的“麻烦制造者”。干扰机制：这些化合物并非通过与靶标特异性的、有意义的“钥匙-锁”模式结合来产生信号。相反，它们通过一些“取巧”的物理化学机制来干扰实验读数，例如：共价修饰：分子上的活泼基团与靶蛋白发生不可逆的共价反应。氧化还原循环：分子自身发生氧化还原反应，干扰依赖荧光或发光的检测系统。金属螯合：螯合实验缓冲液中的金属离子。胶体聚集：在高浓度下形成胶体聚集体，非特异性地吸附蛋白。应用与争议：在药物发现早期，使用PAINS过滤器剔除这些化合物是标准流程，可以有效降低后续资源投入的风险。然而，也存在争议，因为一些上市药物（如儿茶酚胺类药物）或有潜力的天然产物（如姜黄素）也包含PAINS警报结构。因此，PAINS过滤通常被用作一个警示工具而非一票否决的规则，需要结合具体的化学环境和后续的实验验证（如正交检测法）来综合判断。 2. 模型架构：专为亲和力设计的预测模块 Boltz-2的亲和力预测功能由一个专门设计的Affinity Module实现。该模块在已经训练好的结构预测模型之上构建，其梯度在训练时不会反向传播到Trunk模块，以保护其学到的强大结构表示。 2.1 Boltz-2 主干网络 (Trunk): Pairformer 架构 Boltz-2的主干网络（Trunk）是其结构预测能力的核心，其设计在很大程度上借鉴并扩展了前代模型的思想，其核心是Pairformer模块。与早期架构相比，Pairformer的一个关键演进是显著降低了对多序列比对（MSA）信息的直接和持续依赖，转而将计算重心完全放在对成对表示（pair representation）和单一表示（single representation）的深度迭代精炼上。这种设计使其能更高效地处理包含多种分子类型（蛋白质、核酸、小分子等）的复杂生物系统。具体内容见下一篇推送。 Trunk模块与Affinity模块的PairFormer区别必须明确的是，Boltz-2的亲和力模块（Affinity Module）中使用的PairFormer是一个完全独立的、更轻量、更专注的版本。它们的区别在于：对比维度 Trunk中的PairFormer (主干网络) Affinity模块中的PairFormer (亲和力模块) 功能定位结构生成器 (Structure Generator) 亲和力判别器 (Affinity Discriminator) 核心目标预测完整的、物理化学合理的3D结构。在一个已固定的3D结构基础上，精细计算其结合强度。架构深度深层 (64层)，用于复杂的几何推理。轻量级 (4层或8层)，专注于快速、高效的界面分析。关注焦点全局：处理系统内所有原子对的相互作用。局部且专注：通过masking机制，仅处理蛋白质-配体界面及配体内部的相互作用，屏蔽了蛋白质内部的冗余信息。角色总结是一个通用、强大的几何特征提取与精炼引擎。是一个轻量级的、专注于结合界面物理化学性质分析的后处理网络。因此，可以将亲和力模块的PairFormer理解为一个轻量级的、专注于结合界面物理化学性质分析的后处理网络。 2.2 核心架构：聚焦界面的PairFormer与双预测头亲和力模块的输入，继承了Trunk模块对生物分子复合物的深层理解： Trunk模块的最终成对表示：这是Trunk模块输出的、蕴含了丰富序列和结构上下文信息的二维特征图。预测的3D原子坐标：由Denoising模块生成的、置信度最高的蛋白质-配体复合物三维结构。基于原文中的算法1，我们可以将亲和力模块的内部数据流可视化如下： graph TD subgraph "输入 (Inputs)" A[Trunk模块的成对表示 z_trunk] B[Trunk模块的单体特征 s_inputs] C[预测的3D结构距离图 D_ij] end subgraph "Affinity模块内部流程" D[初始化表示] --> E[几何信息注入] E --> F[界面聚焦的PairFormer] F --> G[信息聚合] G --> H[共享MLP层] H --> I[结合可能性预测头 MLP + SoftMax] H --> J[亲和力值预测头 MLP] end subgraph "输出 (Outputs)" K[结合可能性] L[亲和力值] end A --> D B --> D C --> E I --> K J --> L style F fill:#f9f,stroke:#333,stroke-width:2px 流程步骤详解: 初始化表示：接收来自Trunk模块的成对表示z_trunk和单体特征s_inputs，通过线性变换将它们融合，构建出亲和力模块的初始成对表示z。几何信息注入：将已预测出的3D结构信息（以距离图D_ij的形式）通过一个PairwiseConditioner注入到成对表示z中，使其感知3D空间关系。界面聚焦的PairFormer：这是核心处理步骤。成对表示z经过一个轻量级（4或8层）的PairFormer模块进行精炼。关键在于，此处的计算被一个pair_mask所限制，该掩码只允许网络关注蛋白质-配体之间和配体内部的相互作用。信息聚合：经过PairFormer处理后，使用平均池化（Mean Pooling）将(N, N, D)形状的成对表示聚合成一个单一的、代表整个结合事件的全局特征向量g。共享MLP层：全局特征向量g先通过一个共享的多层感知机（MLP）进行一次非线性变换，为最终预测做准备。双预测头：共享MLP的输出被送入两个独立的MLP预测头，分别输出结合可能性（经过SoftMax归一化）和连续的亲和力值。 2.3 鲁棒性增强：亲和力模型集合（Ensemble）为了提升预测的鲁棒性和整体性能，Boltz-2实际上训练了两个超参数略有不同的亲和力模型，并在推理时将它们的预测结果进行集合。模型对比细节: 对比项集合成员1 集合成员2 PairFormer层数 8 4 Focal Loss权重 ($\lambda_{focal}$) 0.8 0.6 训练样本数 5500万 1250万 (注：成员2训练样本数较少，表明其经过了早停（early-stopping）策略) 集合策略与应用常规评估：在进行基准测试时，使用的是两个模型的集合预测结果。对于二元分类，是预测概率的平均值；对于连续值回归，是经过分子量校准的加权平均。生成式筛选中的应用：集合策略在与SynFlowNet结合进行分子生成时扮演了更重要的角色。为了防止生成器“过拟合”或“攻击”单个打分模型的弱点（即reward hacking），团队采用了一个模型（成员1）作为主要的奖励函数来指导生成，而另一个模型（成员2）则用作独立的验证和最终过滤工具。这种机制确保了最终筛选出的分子不仅在主模型上得分高，还能通过第二个模型的“交叉检验”，从而提高了最终候选分子的可靠性。 3. 训练策略：从噪声数据中学习精确信号亲和力模块的成功，同样离不开其为处理噪声数据而量身定制的训练策略。Affinity training在结构预测之后进行，其梯度与结构模型分离，以保护已学到的表示。该训练流程包括几个关键组成部分：高效的蛋白质结合口袋预处理、围绕结合位点的空间区域裁剪、主干特征的预处理、平衡结合物与诱饵并优先考虑信息丰富实验的采样策略，以及为减轻实验噪声影响而定制的鲁棒损失函数。 3.1 口袋识别、裁剪与特征预计算：为亲和力预测精准聚焦 graph TD subgraph "阶段一：离线预处理" A["亲和力数据集 「ChEMBL, BindingDB, PubChem等」"] --> B{"口袋识别与距离缓存"}; B --> C["已缓存的共识口袋距离图 「每个靶点一份」"]; A --> D{"特征预计算"}; D --> E["预计算的Trunk特征库 「包含z_trunk和3D坐标」"]; end style B fill:#e3f2fd,stroke:#1e88e5,stroke-width:2px style D fill:#e3f2fd,stroke:#1e88e5,stroke-width:2px 为了让亲和力模块能够高效、准确地学习，Boltz-2设计了一套精密的预处理流程，其核心思想是剥离无关信息，聚焦于决定结合亲和力的关键区域和特征。此流程分为三个关键步骤：口袋识别 (Pocket Identification)：为降低训练和推理的复杂性并减少过拟合，模型首先需要精准地识别出配体的结合口袋。这是一个至关重要的预处理步骤，其过程如下：多构象采样与预测：对每个目标蛋白，从亲和力训练数据集中随机抽取10个已知的结合物。然后，利用Boltz-2强大的结构预测模块，为这10个蛋白质-配体复合物分别生成预测的3D结构。置信度筛选：为了确保后续步骤基于高质量的结构信息，模型会使用界面预测TM分数 (interface predicted TM-score, ipTM) 来评估每个预测结构的质量。ipTM是一个源自AlphaFold系列的置信度指标，专门用于评估两个或多个分子链（此处为蛋白质和配体）之间相互作用界面的预测准确性。分数越高，代表模型对预测的结合模式越有信心。共识口袋确定：通过在10个高ipTM分数的预测结构上进行基于共识的投票策略，来最终确定最可能的结合位点。具体来说，该策略会识别出在多个不同配体的预测结合模式中，始终稳定出现在配体周围的那些蛋白质残基。这种方法有效地平均掉了单个预测可能带来的噪声，定义了一个更可靠、更具代表性的“共识口袋”。距离缓存：最后，计算蛋白质中每个原子到这个共识口袋的最小距离，并将这些距离信息缓存下来，供后续的裁剪器高效使用。亲和力裁剪器 (Affinity Cropper)：该裁剪算法利用上一步预先计算好的口袋注释，来高效地从整个复合物中裁剪出与结合亲和力最相关的区域。裁剪目的：这一步骤的核心价值在于为亲和力模块创造一个尺寸一致、信息集中的输入。通过移除距离结合位点遥远的、无关的蛋白质部分，可以确保亲和力模块有限的计算能力（例如其4层或8层的PairFormer）能够完全聚焦于真正决定结合强弱的物理化学相互作用——即蛋白质-配体界面。裁剪流程：该算法首先保留所有的配体tokens，然后基于缓存的口袋距离信息，贪婪地选择距离结合位点最近的蛋白质tokens，直到总tokens数达到上限（最多256个tokens，其中蛋白质tokens不超过200个）。效率提升：该方法保证了即使在某些复合物的实验结构不可用时，也能进行一致的裁剪，并将预处理的复杂度从与复合物数量成正比的O(complexes)降低到与蛋白质数量成正比的O(proteins)。特征预计算 (Feature Pre-computation)：为最大限度地降低迭代式亲和力训练期间的计算开销，关键的结构和表示特征被预先计算并存储。一次性重计算：对每个蛋白质-配体复合物，计算成本最高的步骤——运行完整的Boltz-2结构模型主干网络（Trunk）——只执行一次。关键特征提取：运行后，保留ipTM分数最高的那个候选结构。模型提取并存储该结构的关键信息，包括：预测的原子坐标、主干网络输出的成对表示 (pair representation) 以及上一步裁剪器确定的token索引。内存优化：主干网络输出的成对表示矩阵（尺寸为 N×N×C）非常巨大。考虑到亲和力模块仅利用蛋白质-配体之间和配体内部的成对特征，因此可以在训练开始前，安全地丢弃矩阵中占据绝大部分空间的蛋白质-蛋白质相互作用部分。根据论文，这一优化步骤能将训练时所需的内存占用减少5倍以上，极大地提升了数据加载和处理的效率，使得大规模亲和力训练成为可能。 graph LR subgraph "阶段二：在线训练循环" F["开始一个训练批次"] --> G{"选择数据源"}; G -- "连续值亲和力数据" --> H("活性悬崖采样器 根据IQR分数选择实验"); G -- "二元标签数据" --> I("结合物-诱饵采样器 1个结合物 + 4个诱饵"); H --> J["采样一批「5个」来自同一实验的分子"]; I --> J; J --> K{"组装批次数据"}; subgraph "输入自阶段一" C_IN["已缓存的共识口袋距离图"]; E_IN["预计算的Trunk特征库"]; end C_IN -- "用于确定裁剪区域" --> K; E_IN -- "提供结构和特征" --> K; subgraph K["组装批次数据"] K1["亲和力裁剪器 「保留配体+最多200个口袋蛋白tokens」"]; K2["特征提取 「从特征库中提取裁剪后的z_trunk和坐标」"]; end K --> L["输入到Affinity模块"]; subgraph L["Affinity模块训练"] L1["界面聚焦的PairFormer 「4/8层」"]; L2["双预测头: 结合可能性 & 亲和力值"]; end L --> M{计算总损失}; subgraph M["计算总损失「L_total」"] M1["成对差异损失 L_dif 「高权重」"]; M2["绝对值损失 L_abs 「低权重」"]; M3["二元分类损失 L_binary 「Focal Loss」"]; end M --> N["反向传播 「仅更新Affinity模块权重」"]; N --> F end style C_IN fill:#dcedc8,stroke:#689f38 style E_IN fill:#dcedc8,stroke:#689f38 style H fill:#fff9c4,stroke:#fdd835,stroke-width:2px style I fill:#e8f5e9,stroke:#43a047,stroke-width:2px style M fill:#ffebee,stroke:#e53935,stroke-width:2px style N stroke-dasharray: 5 5 3.2 Activity Cliff采样器与标签采样模型设计了一个定制的亲和力训练采样器，以增强从含噪数据集中学习的能力，该采样器旨在平衡结合物和诱饵，并强调高对比度的实验。训练时，根据表8中指定的概率从不同数据源进行采样，并构造大小为5的批次，确保同一批次内的所有样本来自同一个实验。亲和力值采样器 (Affinity value sampler)：从亲和力数据中学习的一个关键挑战是捕捉“活性悬崖”——由分子微小结构修饰引发的结合亲和力巨大变化。为了鼓励模型关注这些高频模式，采样器在每个批次中都从同一个实验中采样五个复合物。为了优先考虑信息最丰富的实验，引入了实验级别的“活性悬崖分数”，该分数被定义为亲和力值的四分位距 (IQR)。对实验的采样概率与这些活性悬崖分数成正比。二元标签采样器 (Binary label sampler)：为提高对结合物和诱饵的区分能力，训练批次在一致的蛋白质背景下构建。对每个批次，首先从数据集中随机均匀采样一个结合物，确定其相关实验，然后从同一实验中随机采样四个诱饵。 3.3 鲁棒且精巧的损失函数为了应对实验噪声和数据异质性，Boltz-2采用了复杂的复合损失函数。 graph TD subgraph "Boltz-2 总损失函数" A["成对差异损失 L_dif 「Huber Loss, 权重: 0.9」"] --> D{加权求和}; B["绝对值损失 L_abs 「Huber Loss, 权重: 0.1」"] --> D; C["二元分类损失 L_binary 「Focal Loss」"] --> D; D --> E((反向传播 更新亲和力模块)); end style D fill:#e0e0e0,stroke:#616161 style E fill:#c8e6c9,stroke:#388e3c,stroke-width:2px 背景知识：Huber Loss与Focal Loss Huber Loss (胡贝尔损失)：这是一种用于回归任务的损失函数，它巧妙地结合了均方误差（MSE）和平均绝对误差（MAE）的优点。 $L_{\delta}(y, f(x)) = \begin{cases} \frac{1}{2}(y - f(x))^2 & \text{for } |y - f(x)| \le \delta / \delta \cdot |y - f(x)| - \frac{1}{2}\delta^2 & \text{otherwise} \end{cases}$ 当预测误差 $|y−f(x)|$ 小于一个阈值δ时，它等同于MSE，对误差进行平方惩罚；当误差大于δ时，它进行线性惩罚。这使得它对异常值（outliers）不那么敏感。在亲和力数据中，某些实验点可能由于各种原因噪声极大，使用Huber Loss可以防止这些异常点对模型训练产生过度的负面影响。 Focal Loss (焦点损失)：这是一种用于解决类别不平衡问题的分类损失函数，是交叉熵损失的一种改进。 $FL(p_t) = -\alpha_t (1 - p_t)^\gamma \log(p_t)$ 其核心是引入了调制因子$(1 - p_t)^\gamma$。其中，$p_t$是模型对正确类别的预测概率。对于一个容易分类的样本（$p_t$很大），$(1 - p_t)^\gamma$项会变得很小，从而降低了这个样本对总损失的贡献。反之，对于难以分类的样本（$p_t$很小），这个调制因子接近1，其损失贡献不受影响。这使得模型在训练时能够更专注于那些难学的、分类错误的样本。在虚拟筛选数据中，非活性分子（负样本）的数量远超活性分子（正样本），Focal Loss能有效解决这个问题。 Boltz-2的具体损失函数设计如下：二元分类损失：使用Focal Loss。连续值回归损失监督绝对值与差异值：损失函数同时监督两个目标：绝对亲和力值（Labs）。同批次内分子间的成对亲和力差异（Ldif）。并给予后者更高（9倍）的权重。通俗解释：为何要监督“差异值”？不同实验室、不同批次的实验测出的IC50值，会受到底物浓度等实验条件的严重影响，导致它们的绝对值无法直接比较。然而，在同一个实验中测定的一系列分子的活性差异，则很大程度上消除了这些系统性偏差。通过重点监督这个“差异值”，模型可以学习到更本质、更可迁移的构效关系，而不过分依赖于绝对值的准确性。处理截断数据（Censor-aware Supervision）：对于那些只有上限或下限的实验数据（如“> 10μM”），损失函数被设计为只在模型预测方向错误时才产生惩罚。例如，如果真实值是“>10”，而模型预测为8，则会产生损失；如果预测为12，则不会产生损失。连续值亲和力监督 (Affinity Value Supervision) 该部分使用Huber Loss同时监督绝对亲和力值（$L_{abs}$）和同批次内分子间的成对亲和力差异（$L_{dif}$），并给予后者更高（9倍）的权重。处理截断数据（Censor-aware Supervision）：这是其设计的核心亮点之一。对于那些只有下限的实验数据（例如，亲和力报告为$>10\mu M$，意味着真实值比10$\mu M$要差），模型只在预测值比该下限更好（例如预测为8$\mu M$）时才施加惩罚。这种“感知截断”的监督方式确保了模型不会因做出正确的方向性预测而受到惩罚。绝对值损失 $L_{abs}$: $\mathcal{L}_{abs}(y, \hat{y}, s) = \begin{cases} \text{Huber}(y, \hat{y}; \delta=0.5) & \text{if } s \text{ is } = / \text{Huber}(y, \hat{y}; \delta=0.5) \cdot I[\hat{y} < y] & \text{if } s \text{ is } > \end{cases}$ 其中，$y$是真实亲和力值，$\hat{y}$是预测值，$s$是限定符（=或$>$），$I[\cdot]$是指示函数，当条件成立时为1，否则为0。成对差异损失 $L_{dif}$: $\mathcal{L}_{dif}(y_1, y_2, \hat{y}_1, \hat{y}_2, s_1, s_2) = \begin{cases} \text{Huber}(y_1 - y_2, \hat{y}_1 - \hat{y}_2; \delta=0.5) & \text{if } s_1 \text{ is } = , s_2 \text{ is } = / \text{Huber}(y_1 - y_2, \hat{y}_1 - \hat{y}_2; \delta=0.5) \cdot I[\hat{y}_1 - \hat{y}_2 > y_1 - y_2] & \text{if } s_1 \text{ is } = , s_2 \text{ is } > / \text{Huber}(y_1 - y_2, \hat{y}_1 - \hat{y}_2; \delta=0.5) \cdot I[\hat{y}_1 - \hat{y}_2 < y_1 - y_2] & \text{if } s_1 \text{ is } > , s_2 \text{ is } = / 0 & \text{if } s_1 \text{ is } > , s_2 \text{ is } > \end{cases}$ 该公式精细地处理了两种化合物亲和力限定符的所有组合情况。二元标签监督 (Binary Label Supervision) 对于区分结合物与非结合物的二元分类任务，使用Focal Loss。 $\mathcal{L}_{binary} = \text{Focal}(\text{logits}, \gamma=1, \alpha=\lambda_{focal})$ 其中，$\gamma=1$是聚焦参数，$\lambda_{focal}$是用于平衡正负样本贡献的权重系数。总损失函数 (Overall Loss) 最终的训练目标是以上三个损失分量的加权和。 $\mathcal{L}_{\text{total}} = 0.9 \cdot \mathcal{L}_{dif} + 0.1 \cdot \mathcal{L}_{abs} + \mathcal{L}_{binary}$ 4. 性能评估：与物理金标准的正面交锋对Boltz-2亲和力预测能力的评估，核心在于将其与领域内现有的基线方法进行严格比较，尤其是与被视为“金标准”的FEP等物理方法。为此，研究团队在一系列精心挑选的公开基准测试集上进行了正面交锋。 4.1 精度-速度权衡的突破：Pareto前沿图解读 Boltz-2最令人瞩目的成就，在于它彻底打破了亲和力预测领域长期存在的“速度-精度”壁垒。这一点在论文核心的Pareto前沿图上得到了最直观的体现。这张图以计算时间为横轴（对数尺度），以预测精度（皮尔逊相关系数）为纵轴，清晰地展示了不同方法的定位：右侧高精度区：这里是FEP和ABFE等物理模拟方法的领地。它们拥有最高的精度（Pearson R > 0.65），但计算成本也最高，通常需要数小时到数天的GPU时间。左侧高速度区：这里是传统分子对接（Docking）和一些早期机器学习模型的区域。它们速度极快（秒级到分钟级），但精度较低（Pearson R < 0.4），难以胜任精细的先导化合物优化。 Boltz-2的革命性定位：Boltz-2（蓝色五角星）首次出现在了图的左上角——一个此前几乎为空白的区域。它以数十秒的计算时间，实现了与自动化FEP（OpenFE）相当、并接近手动优化FEP（FEP+）的预测精度。这标志着AI模型首次在公开基准上，实现了“鱼与熊掌兼得”，为大规模、高精度的亲和力预测提供了现实可行的解决方案。 4.2 方法论对决：基准、协议与性能概览为了严格评估Boltz-2的亲和力预测能力，研究团队将其与两个代表了当前FEP技术领先水平的平台——FEP+和OpenFE——在大型公开基准数据集上进行了直接比较。这两个平台虽然使用了相同的核心数据集，但其背后的方法哲学和操作流程各有侧重，分别代表了专家精调下的精度上限和自动化流程下的普适性能，为评估Boltz-2提供了绝佳的参照系。基准方法对比总览下表总结了Boltz-2所比较的、以FEP为核心的“金标准”方法，以及其他关键基线。方法类型核心原理典型精度 (Pearson R) 计算成本关键特点 Boltz-2 AI模型基于结构预测的深度学习 ~0.62 - 0.66 ~20秒/配体首次实现速度与精度的突破，开源，无需实验结构。 FEP+ 相对FEP 物理模拟，炼金术转换 ~0.72 - 0.78 >20小时/对商业软件精度上限，依赖专家手动精调协议。 OpenFE 相对FEP 物理模拟，炼金术转换 ~0.63 - 0.66 6-12小时/对自动化开源流程的代表，反映“开箱即用”的性能。 ABFE (RXRX) 绝对FEP 物理模拟，配体湮灭 ~0.6 - 0.9 (靶点依赖) >20小时/配体高精度绝对自由能计算，对协议优化极其敏感。 MM/PBSA 端点法 MD模拟 + 连续介质模型 ~0.18 ~1小时/配体速度较快，但精度远低于FEP，作为中等成本的物理方法参考。对接 (Chemgauss4) 打分函数经验/基于力场的函数 ~0.26 <1分钟/配体速度最快，用于大规模虚拟筛选，但精度最低。 FEP+ 基准集：专家精调的“精度天花板” 该基准集由Schrödinger公司的Ross G.A.等人在2023年发表于Communications Chemistry的论文中建立，旨在打造当时最全面的公开FEP基准数据集，以评估FEP方法所能达到的最大精度（maximal accuracy）。数据集构成与规模该数据集通过整合大量已发表的FEP研究以及额外的数据系统构建而成，总计包含1237个化合物，覆盖了多种多样的蛋白质靶点和化学系列。其详细构成如下表所示：数据集名称 (来源文献) 蛋白质靶点化合物数量 FEP+ R-group set BACE1, CDK2, JNK1, Mcl1, p38, PTP1B, thrombin, TYK2 199 FEP+ charge-change CDK2, DLK, EGFR, EPHX2, IRAK4, ITK, JAK1, JNK1, PTP1B, TYK2 53 OPLS stress set BACE1, CHK1, Factor Xa, A, B, C, D, E 114 OPLS drug discovery BRD4(1), CHK1, Hsp90, scytalone dehydratase, TAF1(2), thrombin, urokinase 93 Water displacement T4 lysozyme, LigA, Mcl1, MUP-1, JAK-2, hsp90, p38 76 FEP+ Fragments BACE1, CHK1, CK2, MHT1, HSP90 79 FEP+ macrocycles - 34 FEP+ scaffold-hopping BACE1, β-tryptase, CHK1, ERα, Factor Xa 17 Merck sets CDK8, cMet, Eg5, HIF-2α, PFKFB3, SHP-2, SYK, TNKS2 264 GPCRs A2A, OX2, P2Y1 98 Bayer macrocycles Ftase, BRD4 8 Janssen BACE1 BACE1 74 MCS docking HNE, Renin 49 Miscellaneous CDK8, Galectin 10, BTK, HIV1 protease, FAAH 79 总计 - 1237 分子多样性与挑战该数据集主要由同源物系列（congeneric series）构成，即具有相同核心骨架但周边R基不同的化合物。然而，为了全面检验FEP方法的鲁棒性，该基准集特意包含了多种极具挑战性的非同源转换，包括：变电荷（charge-changing）转换骨架跃迁（scaffold-hopping）大环化（macrocyclization）水分子置换（buried water displacement）这使得该基准集比以往任何数据集都更能模拟真实药物研发中遇到的复杂化学场景。实验数据来源基准集中所有化合物的结合亲和力数据均来源于已发表的文献，涵盖了多种实验测定方法，包括直接的结合实验（binding assays）和功能性实验（functional assays）。亲和力数值类型主要为：解离常数 Kd 抑制常数 Ki 半数抑制浓度 IC50 论文作者通过详尽的调研发现，这两类实验测得的相对结合自由能（ΔΔG）具有良好的一致性，因此均可作为验证FEP预测的可靠依据。 FEP+计算协议与精度为达到“最大精度”的目标，该研究中的FEP+计算流程包含了大量的专家干预和手动优化。计算协议：所有计算均使用OPLS4力场和SPC水模型。采用了副本交换溶质回火（Replica Exchange with Solute Tempering, REST）技术来增强采样，并针对不同类型的微扰（如变电荷、骨架跃迁等）使用了定制化的Lambda窗口数量（12、16或24个）。专家手动调优：这是该基准集结果含金量的关键。研究人员对大部分体系的输入结构进行了精细的手动审查和优化，包括配体的结合模式、残基的质子化/互变异构状态等。在发现模拟采样不足时，会采取手动增加额外构象或调整微扰路径等策略。例如：在MCL1体系中，通过手动为配体添加额外的旋转异构体状态，将成对RMSE从1.41 kcal/mol降低至1.24 kcal/mol。在TNKS2体系中，通过将配体的质子化和去质子化两种状态都加入计算，将成对RMSE从2.10 kcal/mol降低至1.60 kcal/mol。总体精度：在经过上述精细处理后，FEP+在该大型基准集上达到了当前已知的最高精度水平。精度指标 FEP+ 基准集结果 (95% CI) 成对RMSE (kcal/mol) 1.25 [1.17, 1.33] 成对MUE (kcal/mol) 0.98 [0.91, 1.05] R² (决定系数) 0.56 [0.51, 0.60] Kendall τ (肯德尔等级相关系数) 0.51 [0.48, 0.55] 总而言之，FEP+基准集及其结果，代表了在一个经过专家精细准备和计算方案优化的理想条件下，顶级商业FEP软件所能达到的性能上限。这为衡量任何新兴预测方法（包括Boltz-2）的理论最高精度提供了一个黄金标准。相关链接论文原文: https://doi.org/10.1038/s42004-023-01019-9 GitHub仓库: https://github.com/schrodinger/public_binding_free_energy_benchmark OpenFE 基准集：自动化开源方法的“现实世界”代理 OpenFE是一个致力于开发开源炼金术自由能计算软件生态的社区项目。为了验证其性能，OpenFE社区联合了15个制药公司合作伙伴，进行了一项大规模的基准测试，而他们选择的核心公共数据集，正是上述的FEP+基准集。与FEP+的关系：OpenFE选择使用FEP+基准集，恰恰说明了该数据集作为社区“金标准”的地位，因为它允许与顶级的商业软件进行直接比较。测试规模：OpenFE的公开基准测试运行了FEP+数据集中的一个大规模子集，具体包括： 59个蛋白质-配体系统 876个独立配体近1200次炼金术转换计算核心哲学差异：与FEP+结果最关键的不同之处在于，OpenFE的测试严格遵循了“开箱即用”的原则。在整个测试过程中，始终使用的是OpenFE的默认、自动化计算流程，没有为任何特定体系进行手动参数优化。性能对比：根据其发布的报告，虽然OpenFE在使用默认协议时，其预测的绝对误差（如RMSE）总体上高于经过手动精调的FEP+结果，但其排序能力（ranking ability），即正确预测一系列化合物活性高低顺序的能力（如以Kendall’s tau衡量），表现出了与FEP+相当的竞争力。总而言之，OpenFE的基准测试结果，可以被视为当前自动化、开源FEP方法在没有专家干预的前瞻性预测中所能达到的典型性能，更能反映其在真实世界高通量、自动化筛选流程中的表现。相关链接博客文章: https://blog.omsf.io/the-free-energy-of-everything-benchmarking-openfe/ GitHub仓库: https://github.com/OpenFreeEnergy/openfe-benchmarks ABFE (RXRX协议) 基准集：自动化与协议优化的前沿探索在另一项由Wu Z.等人发表于ChemRxiv（2025）的研究中，重点并非构建一个全新的大规模数据集，而是针对绝对结合自由能（ABFE）计算中存在的稳定性差和结果复现性不佳的问题，开发了一套经过深度优化的新协议，并将其在成熟的基准体系上进行了验证。基准体系与实验数据测试系统：该研究选择了四个广为人知且经过充分验证的激酶靶点进行基准测试：TYK2, P38, JNK1, CDK2。这些体系的结构和实验数据源自更早的社区基准集（如Chen et al.的工作），确保了数据的可靠性。配体选择：所有参与测试的配体均为电中性分子，以避免因净电荷变化带来的额外计算复杂性。力场：蛋白质使用AMBER14SB力场，配体则使用OpenFF 2.2.0力场。核心创新：RXRX协议 vs Aldeghi协议该研究的核心在于展示其新开发的RXRX协议相比于广泛使用的基线Aldeghi协议的优越性。其关键创新点在于：智能化的约束选择：Aldeghi协议使用基于原子移动性的MDRestraintsGenerator来选择约束，有时会导致模拟不稳定。而RXRX协议则开创性地利用蛋白质-配体间的氢键信息来选择约束原子，确保了约束施加在关键的相互作用上，从而从根本上避免了数值不稳定性。优化的Lambda调度：Aldeghi协议采用线性的Lambda调度。RXRX协议则通过最小化最终MBAR分析误差的方式，搜索并确定了非线性的、最优的Lambda窗口分布方案，尤其是在处理范德华力（LJ）相互作用的湮灭阶段。重排的炼金术路径：Aldeghi协议通常是先施加所有约束，再依次湮灭静电和LJ相互作用。RXRX协议则重新安排了这一顺序，将约束的施加与相互作用的湮灭分阶段并行进行（例如，在湮灭静电作用时，仅施加二面角约束），进一步提升了模拟的稳定性和收敛性。精度提升结果通过上述优化，RXRX协议在所有四个靶点上都展现了优于基线协议的性能，不仅降低了重复计算间的方差（提高了复现性），也提升了与实验值的吻合度。靶点评估指标 Aldeghi 协议 RXRX 协议 (优化后) TYK2 RMSE (kcal/mol) 0.99 0.76 Kendall’s τ 0.48 0.74 P38 RMSE (kcal/mol) 0.91 0.86 Kendall’s τ 0.50 0.46 JNK1 RMSE (kcal/mol) 1.05 0.89 Kendall’s τ 0.61 0.61 CDK2 RMSE (kcal/mol) 0.93 0.76 Kendall’s τ 0.48 0.49 该研究的价值在于，它展示了通过精细优化ABFE计算协议，可以在不改变力场和MD引擎的前提下，显著提升计算的稳定性、复现性和准确性。这为Boltz-2等AI方法提供了一个更具挑战性、代表了自动化ABFE计算前沿水平的性能基准。预印本原文: https://doi.org/10.26434/chemrxiv-2025-q08ld-v2 快速打分函数与端点法简介对接打分函数 (如Chemgauss4)：这是分子对接程序中用于评估配体结合姿态和粗略估计亲和力的数学函数，速度极快但精度有限。 MM/PBSA：一种流行的“端点法”。它通过对MD模拟轨迹的始末状态进行计算，结合连续介质溶剂模型来估算结合自由能，比对接精确，但远不如FEP严谨。量子化学方法 (如FMO)：片段分子轨道法（FMO）是一种半经验的量子化学方法，通过将大体系分割成小片段进行计算，以在可接受的时间内获得更精确的相互作用能，但仍属于打分函数范畴。 4.3 在FEP+基准集上的详细表现 Boltz-2与FEP方法的正面比较，主要在FEP+基准集上进行。这是一个由Schrödinger公司建立的、包含1237个化合物的大规模、高质量数据集，被广泛视为行业金标准。结果图详见第一篇推送。在4-靶点专注子集上： Boltz-2取得了0.66的平均皮尔逊相关系数（Pearson R）。 OpenFE（自动化FEP）的相关系数为0.66。 FEP+（专家精调FEP）的相关系数为0.78。结论：在此数据集上，Boltz-2的性能与自动化的OpenFE完全相当，并显著超越了所有其他快速物理方法和机器学习基线，与代表精度上限的FEP+处于同一量级。在大型OpenFE子集上（876个复合物）： Boltz-2的Pearson R达到了0.62。 OpenFE的相关系数为0.63。 FEP+的相关系数为0.72。结论：即使在规模扩大十倍的更大数据集上，Boltz-2的性能依然紧随自动化FEP方法，显示了其强大的稳定性和泛化能力。这些结果清晰地表明，AI模型在亲和力预测精度上，首次达到了可以与严谨物理模拟方法直接对话的水平。 4.4 问题：Boltz-2如何保证FEP基准数据不被混入训练集？ Boltz-2采用了一套严格且多层次的数据泄漏控制策略，以确保基准测试的公正性和可靠性。这套策略主要基于蛋白质序列聚类，并辅以配体化学相似性分析作为补充验证。 graph LR subgraph "第一步：基于蛋白质序列的严格过滤「主要策略」" A["训练数据集 「含所有亲和力数据」"] --> C[["**蛋白质序列聚类** 「使用mmseqs, 90%序列一致性为阈值」"]]; B["测试/验证数据集 「如FEP+, CASP16」"] --> C; C --> D{"判定： 簇中是否**同时包含** 训练集与测试集蛋白？"}; D -- "是" --> E["从训练集中移除 该簇的全部蛋白"]; D -- "否" --> F["保留该簇的 训练集蛋白"]; E --> G[("产出： 无蛋白质序列泄漏的训练集")]; F --> G; end subgraph "第二步：配体化学相似性分析「辅助验证」" G --> H[["分析步骤： 计算测试集配体与 “干净”训练集配体的**最大Tanimoto相似度**"]]; B --> H; H --> I[("最终结论： 模型性能与配体相似度无显著相关性 「进一步证实模型的泛化能力」")]; end style G fill:#dcedc8,stroke:#388e3c,stroke-width:2px,stroke-dasharray: 5 5 style I fill:#c8e6c9,stroke:#388e3c,stroke-width:4px style D fill:#fff3e0,stroke:#fb8c00,stroke-width:2px 主要策略：基于蛋白质序列相似性的严格过滤这是防止数据泄漏的核心机制。序列聚类研究团队首先使用 mmseqs easy-cluster 工具，将亲和力训练集、验证集和测试集中的所有蛋白质序列进行聚类。聚类的标准是90%的序列一致性（sequence identity）。这意味着，任何两个序列如果相似度达到或超过90%，它们就会被分到同一个簇（cluster）中。训练集清洗在聚类完成后，进行关键的过滤步骤：如果某个蛋白质簇中，既包含了来自训练集的蛋白质，又包含了来自验证集或测试集的蛋白质，那么所有来自该簇的训练集蛋白质都将被移除。这一策略的核心思想是，确保模型在评估时面对的蛋白质靶点，其序列与训练集中见过的任何靶点都足够不相似（相似度低于90%）。这可以有效防止模型仅仅因为“记住”了训练集中某个同源蛋白的特性，而对测试集中的相似蛋白做出看似准确的预测。辅助策略：配体化学相似性分析作为额外的验证手段，特别是在评估FEP+和CASP16这两个重要基准集时，团队还分析了配体层面的数据泄漏可能性。 FEP+基准集分析他们计算了FEP+测试集中每个化合物，与其在整个亲和力训练集中的最相似化合物之间的Tanimoto相似度。分析结果显示，模型性能与这种配体相似度之间没有显著的相关性。这表明，Boltz-2的优异表现并非因为它“见过”化学结构相似的训练样本，而是其真正学习到了更普适的构效关系。 CASP16基准集分析对CASP16数据集也进行了同样的分析，发现其测试配体与训练集的最高Tanimoto相似度也处于一个足够低的水平，从而减轻了对配体层面数据泄漏的担忧。例外情况论文明确指出，上述基于序列的过滤策略应用于所有公共基准数据集，但有两个例外： CASP16数据集 Recursion内部的私有数据集原因是，CASP16的数据发布时间晚于Boltz-2的训练数据截止日期，因此天然不存在泄漏问题。而Recursion的内部数据集是专有的，本身就不存在于公共的训练数据源中。通过这套以蛋白质序列过滤为主、配体相似性分析为辅的严谨流程，Boltz-2最大限度地保证了其在FEP+等关键基准测试上性能评估的客观性和公正性。

Machine Learning & AI · 2025-06-09

Boltz-2 Core Network Architecture: Pairformer Trunk Design

Machine Learning & AI · 2025-06-09

Deep Analysis of Boltz-2's Dynamic Structure Modeling: From Ensemble Supervision to Performance Evaluation

深入解析Boltz-2的动态结构建模：从系综监督到性能评估摘要在对Boltz-2革命性的亲和力预测能力进行初步解读后，本文将深入其技术内核，系统性地剖析该模型在生物分子动态学建模方面的方法论与实证结果。静态结构在描绘生物分子功能方面存在固有局限，而捕捉由分子动力学（MD）和核磁共振（NMR）等技术揭示的构象系综，是理解变构效应、柔性口袋识别与药物诱导契合等复杂生物学现象的关键。本文将详细阐述Boltz-2如何处理并学习大规模MD与NMR系综数据，重点介绍其独特的系综监督机制、B-factor预测模块，以及实现用户精细控制的方法条件化策略。同时，我们将深入分析模型动态预测能力的量化评估指标（包括RMSF与lDDT相关指标），并展示其在标准基准测试集上的性能表现。本文旨在为计算生物学、计算化学及AI药物研发领域的研究人员，提供一份关于Boltz-2动态建模能力的全面、严谨且深刻的技术报告。 1. 数据策略：为静态模型注入动态信息 Boltz-2在动态建模上的突破，根植于其对训练数据的战略性扩展，即从依赖单一静态结构（如X射线晶体衍射结构）转向主动整合并学习构象系综（conformational ensembles）。 1.1 分子动力学（MD）数据集的整合与处理 Boltz-2整合了三个大型、公开的MD数据集，旨在让模型学习溶液环境中的生物分子动态行为。 MISATO数据集来源: Siebenmorgen et al. (2024)。内容: 主要为蛋白质-小分子配体复合物。模拟细节: NVT系综（粒子数、体积、温度恒定），300K温度，8纳秒（ns）模拟时长。数据处理与筛选: 包含多残基配体（如聚糖）或修饰肽的轨迹被丢弃。若在轨迹的任何一帧中，配体与蛋白质的距离超过12Å，则该轨迹被移除。Boltz-2在训练时使用了轨迹的全部100个数据帧。最终规模: 经过筛选后，贡献了11,235个系统。 ATLAS数据集来源: Vander Meersche et al. (2024)。内容: 主要为蛋白质。模拟细节: NPT系综（粒子数、压强、温度恒定），300K温度，100纳秒（ns）模拟时长。数据处理与筛选: 为聚焦于更接近平衡态的构象，Boltz-2从每条轨迹的最后10纳秒中随机均匀采样100帧用于训练。最终规模: 包含1,284个蛋白质。 mdCATH数据集来源: Mirarchi et al. (2024)。内容: 主要为蛋白质。模拟细节: NVT系综，320K温度，模拟时长可变，最长可达500纳秒（ns）。数据处理与筛选: 同样为了聚焦于平衡态构象，仅使用每条轨迹的最后10%进行训练。最终规模: 包含5,270个系统。 1.2 核磁共振（NMR）系综数据的应用除了MD模拟，NMR实验解析的结构通常在PDB文件中以多个模型（multi-model）的形式存在，这本身就构成了一个实验测定的构象系综。Boltz-2在数据处理时，会将这些PDB文件中的每一个模型作为系综中的一个独立构象样本进行处理，从而将来自实验的动态信息也纳入学习范畴。 2. 训练方法论：让AI理解并复现动态过程获取动态数据是第一步，如何设计有效的训练机制让模型理解并复现这些动态信息是核心挑战。Boltz-2为此采用了多种环环相扣的监督策略。 2.1 核心机制：系综监督（Ensemble Supervision）系综监督是Boltz-2处理动态数据的核心机制，它体现在对距离图（Distogram）和原子坐标（Coordinates）两个层面的监督上。 2.1.1 聚合距离图监督技术细节: 模型的Trunk模块负责预测残基/原子间的距离分布，即距离图。对于一个包含K个构象的系综，传统的做法是只监督其中一个构象。而Boltz-2则采取了更先进的策略：距离图的表示: 首先，需要明确“距离图”在模型中的具体表示。它并非一个简单的二维矩阵，而是一个三维张量（Tensor），形状为(N, N, D)，其中N是残基/原子的数量，D是距离被划分的离散区间（bin）的数量。因此，对于残基对(i, j)，其对应的distogram[i, j, :]是一个长度为D的向量。当一个构象被转换为独热编码（one-hot encoded）的距离图时，意味着如果其i-j距离落在第k个区间，那么这个向量的第k个位置为1，其余为0。聚合操作: 对于系综中的K个构象，模型会计算出K个形状为(N, N, D)的独热编码距离图张量。聚合操作即是在这K个张量上进行逐元素平均（element-wise averaging）。目标距离图: 聚合后得到的是一个单一的、形状仍为(N, N, D)的目标张量。此时，每个位置(i, j)的向量不再是独热的，而是一个概率分布向量，其第k个元素的值代表了在整个系综中，残基对(i, j)间距离落在第k个区间的概率。损失函数: 模型的损失函数（加权的多元交叉熵）会计算其预测的距离图与这个聚合的概率性目标距离图之间的差异。作用与意义: 这种方法迫使模型学习的不是某个特定瞬时构象的空间关系，而是整个系综在统计意义上的平均空间特征和构象多样性，从而生成更鲁棒、更能代表动态平均水平的结构表示。 2.1.2 随机采样坐标监督技术细节: 核心架构: 根据原文，Boltz-2的去噪模块（Denoising Module）核心架构与Boltz-1保持一致。训练精度: 一个重要的技术设置是，去噪模块在训练时使用了完整的float32浮点数精度。这是因为团队发现，使用较低的精度（例如在Trunk模块中使用的bfloat16）会导致训练过程出现不稳定现象。扩散过程超参数: 本文去噪过程最特别的设置体现在扩散过程的超参数上。如论文附录中的表7所示，Boltz-2调整了多项关键参数以区别于Boltz-1，并选择向AlphaFold3的默认设置看齐，以吸收社区最先进的实践经验。这些参数直接控制噪声的施加与移除过程，例如： sigma_min: 0.0001 rho: 7 gamma_0: 0.8 gamma_min: 1.0 noise_scale: 1.003 step_scale: 1.5 系综监督策略: 在监督方式上，对于每一个包含K个构象的系综样本（来自MD或NMR），Boltz-2在每个训练迭代中都会从中随机采样一个构象用于坐标去噪的监督。这个被采样的单一构象将被用于后续标准的坐标加噪和去噪流程。通俗解释：去噪训练如何工作？扩散模型的训练是一个“自监督”的过程。首先，我们从数据集中取一个“干净”的真实结构$M_0$。然后，我们人为地向其添加一个已知的、随机的高斯噪声$\epsilon$，得到一个“损坏”的结构$M_t$。接着，我们将这个损坏的结构$M_t$和时间步$t$输入到Denoising网络中。网络的目标是预测出我们当初添加的那个噪声$\epsilon$（或者等价地，预测出原始的$M_0$）。最后，我们计算网络预测的噪声和真实的噪声$\epsilon$之间的差异（通常是均方误差MSE），这个差异就是损失函数，通过最小化这个损失，网络就学会了如何“去噪”。作用与意义: 通过在每次迭代中暴露给模型一个来自系综的、略有不同的构象，模型得以充分学习到蛋白质的内在柔性和构象空间的多样性，避免了对单一“标准”构象的过拟合。而采用经过验证的、源自AlphaFold3的扩散超参数，则确保了去噪过程本身是稳定且高效的，站在了巨人的肩膀上。 B-factor 监督：捕捉原子级的局部柔性 B-factor（或称温度因子、位移参数）是描述晶体结构中每个原子位置不确定性的参数，值越高通常意味着该原子越柔性或活动范围越大。 B-factor预测模块输入：来自Trunk模块最后一层的单一Token表示（single token representation）。这个表示已经编码了该Token（如一个氨基酸残基）的序列和结构环境信息。输出：对该Token代表性原子（如Cα原子）的B-factor值的标量预测。监督方式对于实验结构，直接使用PDB文件中提供的B-factor作为真值。对于MD模拟轨迹，B-factor通过每个原子的均方根涨落（Root Mean Square Fluctuation, RMSF）计算得到。公式推导经典推导思路 Debye–Waller 因子（DWF）的形式在晶体衍射中，原子热振动导致衍射强度被衰减，这个衰减由 Debye–Waller 因子描述。对于各向同性的简化，DWF 随散射矢量 $ q $ 的依赖为： \[\mathrm{DWF}(q) = \exp\left(-\frac{q^2 \langle u^2 \rangle}{3}\right)\] 其中 $\langle u^2 \rangle$ 是原子位移的均方偏移（mean squared displacement）。（参考：Debye–Waller factor - Wikipedia）衍射中常用的 B-因子定义在晶体学里，人们往往把 DWF 写成角度和波长的形式： \[\mathrm{DWF} = \exp\left(-2B \frac{\sin^2\theta}{\lambda^2}\right)\] 这里 $\theta$ 是衍射角，$\lambda$ 是入射 X 射线波长，$B$ 就是我们常说的各向同性 B-因子（单位 Å²）。将两种形式对应起来首先，用几何关系把 $ q $ 用 $\theta$ 和 $\lambda$ 表示： \[q = \frac{4\pi \sin\theta}{\lambda}\] 于是： \[\exp\left(-\frac{q^2 \langle u^2 \rangle}{3}\right) = \exp\left(-\frac{16\pi^2}{3} \frac{\sin^2\theta}{\lambda^2} \langle u^2 \rangle\right)\] 要和 $\exp\left(-2B \frac{\sin^2\theta}{\lambda^2}\right)$ 对应，需满足指数系数相等，即： \[2B = \frac{16\pi^2}{3} \langle u^2 \rangle \quad \Longrightarrow \quad B = \frac{8\pi^2}{3} \langle u^2 \rangle\] 识别 RMSF 在分子动力学中，RMSF（Root-Mean-Square Fluctuation）正好就是 $\sqrt{\langle u^2 \rangle}$，因此： \[B = \frac{8\pi^2}{3} \cdot \text{RMSF}^2\] 训练影响：B-factor的预测损失作为一个带权重的附加项（根据论文Table 6，bfactor loss weight为 $ 1 \times 10^{-3} $）被加入到模型的总损失函数中。这意味着模型在优化主要结构预测任务的同时，也必须努力学习和预测每个原子的动态柔性。 2.3 方法条件化：实现对预测风格的精细控制由于训练数据来源多样（X-ray, NMR, MD等），Boltz-2引入了方法条件化（Method Conditioning）机制。实现方式: 在训练时，每个样本的来源方法类型作为一个one-hot编码的特征输入到模型的单一Token表示中。推理应用: 在推理预测时，用户可以手动指定一个方法类型作为输入条件。效果: 这使得用户可以引导模型生成符合特定实验方法特性的结构。例如，当条件设为“MD”时，模型倾向于生成更多样化的构象系综；当条件设为“X-ray”时，则倾向于生成更收敛、更紧凑的单一构象。 3. 性能评估：动态预测能力的量化与实证 Boltz-2的动态预测能力通过一系列严谨的指标和基准测试得到了验证。 3.1 评估指标详解 3.1.1 lDDT分数 (local Distance Difference Test) lDDT是一种无需结构叠合的蛋白质结构评估方法。它通过评估预测结构中每个残基的局部原子环境是否与真实结构保持一致来打分。 lDDT分数核心公式对于一个残基，其lDDT分数是其在多个距离差异容忍阈值下保留的局部距离分数的平均值。一个简化的核心思想可以表示为： \[\text{lDDT}_{\text{score}} = \frac{1}{N_{\text{pairs}}} \sum_{i,j} I(|d_{ij}^{\text{pred}} - d_{ij}^{\text{true}}| < \tau)\] 其中： $ N_{\text{pairs}} $ 是一个残基与其局部邻居（如15Å内）形成的原子对总数。 $ d_{ij}^{\text{pred}} $ 和 $ d_{ij}^{\text{true}} $ 分别是预测和真实结构中原子 $ i $ 和 $ j $ 的距离。 $ \tau $ 是一个距离差异的容忍阈值（例如1Å）。 $ I(\cdot) $ 是指示函数，当距离差异小于阈值时为1，否则为0。完整的lDDT分数会计算在多个阈值（如0.5, 1, 2, 4Å）下的分数并取平均，从而得到一个更全面的评估。 3.1.2 基于RMSF的指标这些指标用于评估模型对原子局部柔性的预测能力。来源: 评估时使用的RMSF值，并非直接来自B-factor预测模块的输出。相反，它们是通过运行Boltz-2模型多次（例如100次）以生成一个包含100个样本的构象系综，然后基于这个预测的系综计算每个原子的RMSF值得到的。这个预测的RMSF随后与从真实MD轨迹计算出的RMSF进行比较。指标皮尔逊相关系数 (Pearson R) 和斯皮尔曼等级相关系数 (Spearman ρ): 衡量预测RMSF与真实MD轨迹RMSF的相关性。均方根误差 (RMSE): 衡量预测RMSF与真实值的绝对误差。 3.1.3 基于lDDT的系综评估指标这些指标用于评估生成的整个构象系综的质量。 Precision lDDT (精确率): 衡量预测系综中每个构象的合理性。它计算预测系综中的每一个构象，与真实系综中与之最相似的构象之间的lDDT分数，然后取平均。高分意味着模型生成的构象都是“靠谱”的。 Recall lDDT (召回率): 衡量预测系综是否充分覆盖了真实系综的多样性。其计算方式为：对于真实MD系综中的每一个构象，算法会在整个预测的构象系综中寻找一个与它最相似（即lDDT分数最高）的构象。这个最高的lDDT分数被记录下来。最后，将所有真实构象找到的“最佳匹配”分数进行平均，得到最终的Recall lDDT。高分意味着真实世界中可能出现的各种重要构象，都被模型成功地预测出来了。 Diversity lDDT (多样性): 衡量预测系综内部构象之间的差异程度，计算为任意两个预测构象间1-lDDT的平均值。高分表示模型生成了一个多样化的构象集合。 3.2 在mdCATH和ATLAS基准上的实证结果 Boltz-2与Boltz-1以及专门的动态预测模型（AlphaFlow, BioEmu）在mdCATH和ATLAS测试集上进行了正面比较。 mdCATH测试集性能对比指标 (Metric) Boltz-2-Xray Boltz-2-MD Boltz-1 AlphaFlow BioEmu ↑ 全局RMSF r 0.48 0.67 0.46 0.24 0.53 ↑ 靶点平均RMSF r 0.72 0.79 0.70 0.77 0.77 ↑ 全局RMSF ρ 0.61 0.65 0.52 0.45 0.44 ↑ 靶点平均RMSF ρ 0.78 0.81 0.76 0.76 0.78 ↓ 全局RMSF RMSE (Å) 192 157 197 229 212 ↓ 靶点平均RMSF RMSE (Å) 21.71 16.30 22.92 18.74 14.85 ATLAS测试集性能对比 (AlphaFlow因训练集重叠未参与此项评估) 指标 (Metric) Boltz-2-Xray Boltz-2-MD Boltz-1 BioEmu ↑ 全局RMSF r 0.57 0.65 0.38 0.56 ↑ 靶点平均RMSF r 0.76 0.85 0.77 0.83 ↑ 全局RMSF ρ 0.63 0.76 0.67 0.63 ↑ 靶点平均RMSF ρ 0.82 0.87 0.83 0.81 ↓ 全局RMSF RMSE (Å) 185 155 218 209 ↓ 靶点平均RMSF RMSE (Å) 17.42 12.35 19.62 15.04 关键结论: 方法条件化有效性: Boltz-2-MD（使用MD条件）在几乎所有RMSF相关性指标上都显著优于 Boltz-2-Xray（使用X射线条件），证明模型确实学会了根据用户指令生成特定风格的动态结构。性能领先: Boltz-2-MD在RMSF的预测准确性上全面超越了其前代产品Boltz-1以及专门的动态预测模型AlphaFlow和BioEmu，展现了作为通用基础模型在细分领域的顶尖实力。精确率与多样性的平衡: Boltz-2在保持高精确率（Precision）的同时，能够生成比Boltz-1更多样化的构象（更高的Diversity），并在召回率（Recall）上表现更优，体现了在生成合理构象和探索构象空间多样性之间取得了更好的平衡。 Figure 11: Global RMSF Spearman, Pearson and MSE metrics for the mdCATH (top) and ATLAS (bottom) holdout sets. 附：如何正确解读Figure 11的散点图理想情况下，一个完美的预测模型应使图中所有数据点精确地落在y=x的对角线上，即预测值等于真实值。然而，在蛋白质动态学这一复杂问题中，观测到的散点分布是符合预期的，并且蕴含了丰富的信息。我们应从以下几个角度解读此类图表：问题的内在复杂性: “基准真相”（Ground Truth）的RMSF值本身是从随机性（stochastic）的分子动力学模拟中计算得到的统计平均值，并非一个确定性的、无噪声的真理。AI模型试图从静态信息中预测这一高度复杂的动态属性，其预测结果存在偏差是不可避免的。评估的核心在于相关性与相对性能: 这些图表的首要价值在于展示了预测值与真实值之间显著的正相关性（由较高的Pearson R和Spearman ρ系数所量化）。这证明模型成功学习到了正确的物理趋势：即刚性区域被预测为刚性，柔性区域被预测为柔性。其次，通过横向比较不同模型（如Boltz-2-MD vs. Boltz-1）的散点图紧密程度、相关系数和误差（MSE），可以清晰地评估出模型的相对性能优劣。数据分布的生物学意义: 图中数据点在低RMSF区域密集，在高RMSF区域稀疏，这反映了蛋白质的固有特性——大部分原子位于稳定的核心结构域（刚性），而少数原子位于高度灵活的环区或末端。模型在高RMSF区域的更大离散度，也恰恰说明了精确预测这些高度柔性区域是当前面临的主要挑战。因此，尽管Figure 11并未呈现完美的对角线，但它通过展示强相关性和不同模型间的性能差异，有力地证明了Boltz-2在捕捉和预测复杂生物分子动态学方面取得了实质性的、可量化的进展。 4. 总结与展望通过对大规模MD和NMR系综数据的创新性整合与监督，Boltz-2成功地将AI结构建模从静态领域推向了动态领域。它不仅能预测蛋白质的平均结构，更能捕捉其原子级的柔性和整体的构象多样性，其综合性能在多个关键指标上达到了与专门化工具相媲美甚至超越的水平。尽管模型在动态建模方面仍有提升空间（例如，MD数据在训练后期才引入，架构有待进一步优化），但Boltz-2无疑为AI驱动的动态生物学研究奠定了坚实的基础，并指明了未来的发展方向。理解并预测分子的“舞姿”，将是揭示生命奥秘、设计下一代智能药物的关键所在。

Machine Learning & AI · 2025-06-08

MIT Releases Boltz-2: AI Binding Affinity Prediction Matches FEP Performance with 1000x Speedup

重磅！MIT发布Boltz-2：AI预测结合亲和力首次媲美FEP，千倍加速药物发现原标题：Boltz-2: Towards Accurate and Efficient Binding Affinity Prediction 链接：http://jeremywohlwend.com/assets/boltz2.pdf 生物分子相互作用的精确建模是现代生物学的核心挑战。近年来，以AlphaFold3 和Boltz-1 为代表的AI模型在生物分子复合物的结构预测方面取得了革命性突破。然而，结合亲和力——这一衡量分子功能和药物疗效的关键性质——的预测仍然是该领域一块难啃的硬骨头。今天，我们为您深度解读来自MIT CSAIL、Jameel Clinic以及Valence Labs等机构的最新成果——Boltz-2。这不仅是一个结构预测模型，更是一个在结构与亲和力预测两大战场上均取得卓越表现的全新基础模型。 Boltz-2的核心突破在于，它是首个在小分子-蛋白质结合亲和力估算方面，性能媲美领域“金标准”——自由能微扰（FEP）方法的AI模型，同时计算效率提升了至少1000倍！此外，Boltz-2还引入了多项创新的可控性功能，并与分子生成模型相结合，展示了发现多样化、可合成、高亲和力苗头化合物的有效工作流程。为了推动整个领域的创新，团队已将Boltz-2的模型权重、推理和训练代码在许可协议下完全开源。下面，让我们一同深入探索Boltz-2的技术细节、惊人性能和深远影响。 1 | 引言：为何Boltz-2如此重要？生物体内的复杂生命过程由蛋白质、DNA、RNA和小分子等生物分子间的相互作用所主导。精确阐明这些相互作用是理解生命、对抗疾病的基石。Boltz-2正是在这一背景下诞生的新型基础模型，它继承并发展了AlphaFold3和Boltz-1的衣钵，不仅提升了跨模态的结构预测准确性，还将预测能力从静态复合物扩展到了动态系综，并在物理真实性上设立了新标准。然而，Boltz-2最与众不同的标志性特征，是其强大的结合亲和力预测能力。结合亲和力衡量小分子（药物）与蛋白质靶点结合的紧密程度，它直接关系到药物是否能作用于预期靶点，以及药效是否足够强大以产生治疗效果。尽管其在药物设计中至关重要，但计算机辅助的亲和力预测长期以来都是一个悬而未决的挑战。此前，该领域的玩家面临着一个两难的性能/计算时间权衡：高精度方法：以自由能微扰（FEP）为代表的原子模拟方法最为精确，但其计算成本极高、速度极慢，无法用于大规模筛选。快速方法：以分子对接（Docking）为代表的方法速度快，但其精度不足以提供可靠的信号。迄今为止，没有任何一个AI模型能够在结合亲和力预测的准确性上与FEP方法或实验室检测相提并论。 Boltz-2的出现，正是为了打破这一僵局。它的成功建立在数据管理和表示学习两大基石之上。通过标准化数百万个生化实验数据，并从这些含噪数据中提取有效信号，Boltz-2解决了训练数据这一核心障碍。同时，其亲和力预测能力根植于驱动共折叠过程的强大潜空间表示，这意味着结构建模的进步直接推动了亲和力预测的飞跃。 2 | 数据：模型的基石强大的基础模型离不开高质量、大规模的数据聚合与管理。Boltz-2的训练数据主要分为两类：结构数据和结合亲和力数据。 2.1 结构数据：从静态到动态，从真实到蒸馏与Boltz-1相比，Boltz-2在结构数据的多样性和来源上进行了大幅扩展。拥抱动态系综：Boltz-1主要基于PDB数据库中每个系统的单一静态结构进行训练。而Boltz-2的一大进步是引入了系综（ensembles）的概念，即一个分子并非只有一种构象。这些系综数据同时来自：实验技术：如核磁共振（NMR）等多构象实验数据。计算模拟：如来自MISATO、ATLAS和md-CATH等大型公开项目的分子动力学（MD）模拟轨迹。这样做目标是让Boltz-2不仅能学习晶体结构所代表的单一平衡点，还能理解分子的局部波动和全局结构变化，从而更好地捕捉蛋白质动态学。进一步解释：MD数据集细节 MISATO：包含在300K温度下进行8纳秒（ns）NVT系综模拟的轨迹。该数据集主要关注蛋白质-配体复合物，并移除了配体漂移过远（>12Å）的轨迹。 ATLAS：包含在300K温度下进行100纳秒（ns）NPT系综模拟的轨迹。Boltz-2从中采样最后10纳秒的构象用于训练，以捕捉更接近平衡态的动态行为。 mdCATH：包含在320K温度下进行NVT系综模拟的轨迹，模拟时间最长可达500纳秒。Boltz-2使用轨迹的最后10%进行训练。通过整合这些长时程、大规模的MD数据，Boltz-2得以学习到比静态晶体结构丰富得多的构象信息。引入B-factor监督：为了进一步增强模型对局部动力学的理解，Boltz-2的Trunk模块末端的单一表示被监督用于预测来自实验和MD轨迹的B-factor（温度因子，反映原子位置的不确定性或柔性）。进一步解释：B-factor监督的作用 B-factor是晶体学中用来描述原子柔性的一个参数，值越高代表原子位置越不确定、越灵活。在MD模拟中，可以通过原子的均方根涨落（RMSF）计算得到类似的量。通过让模型直接预测B-factor，其最终作用是强制模型不仅学习原子的平均位置（三维结构），还要学习每个原子的“动态个性”或“活动范围”。这使得模型对蛋白质的柔性区域（如loop区）和刚性区域（如α-螺旋或β-折叠的核心）有更深刻的理解，从而生成更符合真实动态特性的结构。大规模蒸馏数据：为了增加训练数据的规模和多样性，Boltz-2广泛采用了蒸馏（distillation）技术。通俗解释：什么是蒸馏？想象一下，我们有一位非常厉害的“老师傅”（一个已经很强大的模型，如AlphaFold2或Boltz-1）。我们让这位“老师傅”对大量它没见过但我们认为有价值的“原材料”（如蛋白质或RNA序列）进行预测，并筛选出那些它非常有信心的“作品”（高置信度的预测结构）。然后，我们把这些高质量的“作品”当作新的、可靠的训练数据，用来教“学徒”（即正在训练的Boltz-2）。通过这种方式，我们可以极大地扩充训练集，让模型见到更多样化的例子，尤其是在实验数据稀疏的领域。 Boltz-2的蒸馏数据包括： AlphaFold2预测的单链蛋白质结构。 Boltz-1预测的多种复合物结构，涵盖单链RNA、蛋白质-DNA、配体-蛋白质、MHC-多肽以及MHC-多肽-TCR等多种相互作用类型。 2.2 结合亲和力数据：在噪声中淘金尽管PubChem、ChEMBL等公共数据库中存在数以百万计的结合亲和力数据点，但由于实验方案的差异和噪声，将它们整合成一个可用的训练集是出了名的困难。Boltz-2团队为此设计了一套精细的数据管理策略。进一步解释：“在噪声中淘金”的具体策略 “淘金”的过程旨在从海量的、良莠不齐的公开数据中筛选出最可靠、信息量最大的部分。具体策略包括：来源筛选：优先选择如ChEMBL和BindingDB中手动策展、可信度高的数据。对于PubChem中的数据，严格筛选实验类型（如限定为生化或功能性实验）和置信度等级。数据一致性处理：将所有不同类型的亲和力测量值（如Ki,Kd,IC50等）统一转换为log10尺度，并以μM为标准单位，便于模型学习。噪声实验剔除：移除那些数据点过少、活性值过于集中（标准差过低，无法提供活性差异信息）或化学多样性过低的实验（例如，只测试了一系列非常相似的化合物），因为这些数据可能无法帮助模型学习普适的规律。标签可靠性增强：对于来自高通量筛选（HTS）的二元标签（结合/不结合），这是一个噪声重灾区。团队通过交叉验证的方式，要求一个“结合”的标签必须在独立的定量实验中得到确认，从而过滤掉大量假阳性。负样本扩充：通过“合成诱饵分子”策略，为每个已知的结合物匹配一个结构相似度低但来自相似靶点筛选的“不结合”分子，这极大地丰富了负样本空间，帮助模型更好地区分结合物与非结合物。通过这一系列精细的操作，Boltz-2得以在一个相对“干净”且信息丰富的数据集上进行训练，这是其成功的关键前提。 2.2.1 满足不同需求的混合数据集药物发现的不同阶段对亲和力数据的要求不同：苗头化合物发现（Hit Discovery）：需要大规模、二元标签（结合/不结合）的数据来从大型化合物库中识别出可能的结合物。苗头到先导/先导优化（Hit-to-lead/Lead Optimization）：需要精确的、连续值的亲和力测量数据（如Ki,Kd,IC50）来区分活性上的细微差异，以指导化合物的精修。为了同时支持这两种场景，Boltz-2构建了一个包含二元标签和连续值标签的混合数据集。下表（原Tab. 1）总结了亲和力训练数据集的统计信息：来源 (Source) 类型 (Type) 监督类型 (Supervision) #结合物 (#Binders) #诱饵 (#Decoys) #靶点 (#Targets) #化合物 (# Compounds) ChEMBL and BindingDB optimization values 1.2M (1.45M) 0 2k (2.5k) 600k (700k) PubChem small assays hit-discovery both 10k (13k) 50k (70k) 250 (300) 20k (25k) PubChem HTS hit-discovery binary 200k (400k) 1.8M (3.5M) 300 (500) 400k (450k) CeMM Fragments hit-discovery binary 25k (45k) 115k (200k) 1.3k (2.5k) 400 (400) MIDAS Metabolites hit-discovery binary 2k (3.5k) 20k (35k) 60 (100) 400 (400) ChEMBL and BindingDB synthetic decoys binary 0 1.2M (1.45M) 2k (2.5k) 600k (700k) 表注：括号中的数值表示在应用结构质量过滤器（ipTM < 0.75）之前的统计数据。 3 | 架构：Boltz-2的心脏 Boltz-2的架构如图2所示，由四个主要模块构成：Trunk（主干）、Denoising Module（去噪模块）、Confidence Module（置信度模块）和Affinity Module（亲和力模块）。下面将重点介绍其与Boltz-1相比的主要区别，特别是可控性组件和亲和力模块。 3.1 Trunk模块：强大的特征提取器通俗解释：Trunk模块是做什么的？ Trunk模块可以看作是Boltz-2的“大脑”和“感官系统”。它负责接收所有输入信息——包括蛋白质和配体的序列、多序列比对（MSA）信息、结构模板等等——然后通过一系列复杂的计算（主要是PairFormer堆栈和三角注意力运算），将这些原始信息加工成一个高度浓缩、信息丰富的内部表示。这个内部表示就像是模型对整个生物分子复合物的“深刻理解”，后续的所有预测（结构、置信度、亲和力）都将基于这个表示来进行。进一步解释：PairFormer和三角注意力 PairFormer：是Transformer架构的一种变体，专门用于处理成对（pairwise）的信息。在Boltz-2中，它处理的是任意两个氨基酸/核苷酸/原子之间的关系信息，比如它们的距离、相对朝向等。三角注意力 (Triangle Attention)：这是AlphaFold系列模型中的一个核心创新。传统的注意力机制只考虑A和B之间的关系，而三角注意力则引入了第三方C，形成一个“三角关系”。它会同时更新A-B之间的关系信息，利用A-C和B-C的关系信息。这种机制使得模型能够更好地推断和强制执行三维空间中的几何约束（比如，如果A离C近，B也离C近，那么A和B之间的距离就不可能太远），这对于精确预测3D结构至关重要。通过多层PairFormer和三角注意力的堆叠，Trunk模块能够反复推理和精炼分子间的空间和序列关系，最终输出一个极其强大的内部表示。 Boltz-2对Trunk模块进行了显著的性能优化，通过使用混合精度（bfloat16）和trifast内核进行三角注意力计算，大大提升了训练和推理的速度及内存效率。这使得训练时的裁剪尺寸（crop size）可以扩大到768个tokens，与AlphaFold3保持一致，从而能处理更大的复合物。 3.2 Denoising模块与Boltz-steering：从生成到精炼通俗解释：Denoising模块和Boltz-steering如何工作？ Denoising模块是扩散模型的核心“生成器”。它接收来自Trunk模块的内部表示和随机噪声作为输入，然后像一位雕塑家一样，一步步地从随机的“石块”中“雕刻”出分子的三维结构。然而，AI“雕塑家”有时会犯一些不符合物理常识的错误，比如让两个原子“撞”在一起（空间位阻冲突）或者化学键不合理。这时就需要Boltz-steering出场了。 Boltz-steering是一种在推理阶段（即生成新结构时）应用的“物理校正”技术。它就像给雕塑家手上加了一个“力反馈”装置，当他要做出一个不合理的雕刻时（如原子碰撞），这个装置就会施加一个反向的“力”，引导他做出更符合物理现实的调整。Boltz-2集成了这种方法（形成Boltz-2x版本），可以在不牺牲准确性的前提下，显著提高生成结构的物理合理性。 3.3 可控性：让用户成为“导演” 许多Boltz-1用户希望能更精确地控制模型的预测，以检验科学假设或整合先验知识。为此，Boltz-2引入了三个全新的可控性组件。方法条件化 (Method conditioning) 通俗解释：这允许用户告诉模型：“请你像一位X射线晶体学家那样思考，给我一个类似晶体结构的结果”，或者“请你模拟分子动力学的过程，展示一个动态系综”。模型在训练时学习了不同实验方法（X射线、NMR、MD等）产生的数据的细微差别，因此可以在预测时对齐到指定的方法类型。模板条件化与引导 (Template conditioning and steering) 通俗解释：这允许用户给模型提供一个相关的复合物结构作为“蓝图”或“参考模板”。与之前的方法不同，Boltz-2不仅支持多聚体模板（而不仅仅是单链），还允许用户选择：软条件化：让模型“参考”一下模板，但不强制。硬引导（Steering）：通过Boltz-steering势能，强制模型严格遵循模板的结构。进一步解释：软条件化与硬引导的定量区别论文本身没有提供一个直接的指标来定量比较这两者的差异，但我们可以从其机制上理解其定量效果：软条件化是通过特征输入将模板信息提供给模型，模型在做决策时会“看到”这些信息。但它不提供任何保证。模型完全可以根据其他信息（如MSA）选择性地忽略模板，最终生成的结构与模板的RMSD可能是任何值。硬引导是通过一个惩罚势能来实现的。例如，可以定义一个势能函数Etemplate=∑i∈templatemax(RMSD(xi,xiref)−αcutoff,0)。这个函数的意思是，如果预测的模板区域原子坐标xi与参考模板坐标xiref的RMSD超过了一个预设的阈值αcutoff（比如1Å），就会产生一个惩罚项。在生成过程中，模型会努力最小化这个惩罚，从而保证最终模板区域的RMSD会严格控制在αcutoff以内。这是一个确定性的、可量化的约束。接触与口袋条件化 (Contact and pocket conditioning) 通俗解释：这允许用户直接指定结构上的约束，就像在地图上画线一样。用户可以指定“A残基和B残基必须相互接触”，或者“这个配体必须绑定到这个口袋里”。同样，这些约束也可以通过steering被强制执行。 3.4 Affinity模块：亲和力的最终审判通俗解释：Affinity模块是做什么的？ Affinity模块是Boltz-2实现亲和力预测的核心。它接收由Denoising模块生成的、经过物理校正的3D结构以及Trunk模块提供的丰富表示，然后进行最后的“审判”，并输出两个关键结果：结合可能性 (Binding Likelihood)：一个概率值，回答“这个小分子是否会与蛋白质结合？”。亲和力值 (Affinity Value)：一个连续的数值，回答“如果结合，结合得有多紧密？”。这个值可以近似理解为一个类似IC50的度量。该模块的核心是一个PairFormer模型，它专门关注蛋白质-配体界面以及配体内部的相互作用，而忽略了蛋白质内部的相互作用，从而能更高效地聚焦于结合事件本身。这些相互作用信息被聚合起来，最终通过两个独立的预测头输出上述的结合可能性和亲和力值。 4 | 训练：如何铸就强大的Boltz-2 Boltz-2的训练过程分为三个主要阶段：结构训练、置信度训练和亲和力训练。 4.1 结构和置信度训练这部分的训练过程大体上遵循Boltz-1，但有几个关键的改进：计算优化：允许模型使用更大的裁剪尺寸和更多的迭代次数进行训练。系综监督：对于来自实验或MD的系综数据，通过聚合所有构象的距离图（distogram）来进行监督，以减少方差。 B-factor监督：如前所述，Trunk的最终表示被额外监督用于预测每个token的B-factor。进一步解释：MD数据在训练中的具体作用 MD数据主要通过两种方式在结构训练中发挥作用：监督距离图（Distogram Supervision）：对于一个MD轨迹产生的构象系综（例如100个构象），模型不是预测其中某一个构象的距离图，而是预测这100个构象距离图的聚合结果（例如，平均距离图）。损失函数（如交叉熵）会计算模型预测的距离图与这个聚合目标之间的差异。这种方式让模型学习到一个代表系综平均特征的、更鲁棒的距离表示，而不是过拟合到某个瞬时构象。监督坐标去噪（Coordinate Denoising Supervision）：在每个训练迭代中，会从MD系综中随机采样一个构象。这个被采样的构象会被用于标准的扩散模型坐标加噪和去噪的监督过程。这意味着模型在训练时会见到来自MD轨迹的大量不同构象，从而学习到蛋白质的柔性和构象多样性。总结来说，MD数据没有引入新的损失项，而是改变了现有损失项（距离图损失和坐标去噪损失）的监督目标，让模型从学习单一静态结构转变为学习动态的构象系综。 4.2 亲和力训练亲和力训练在结构和置信度训练之后进行，并且训练时梯度不会反向传播到Trunk模块，以保护其学到的强大结构表示。进一步解释：亲和力训练的输入亲和力模块的输入主要来自已经训练好的Trunk模块。具体来说，其输入是： Trunk模块的最终成对表示（final pair representation）：这是Trunk模块经过多层计算后输出的、蕴含丰富结构和序列信息的二维特征图。预测的原子坐标：由Denoising模块生成的、最可信的3D结构坐标。换言之，亲和力模块是在一个高质量的、由模型自身预测的3D结构基础上，利用Trunk模块学到的深层内部表示（representation）来进行预测的。它不需要原始的序列或MSA信息，因为这些信息已经被Trunk模块“编码”进了它的输入表示中。其训练流程包含多个精心设计的组件：口袋预计算和裁剪：为了聚焦于最相关的相互作用并提高效率，训练流程首先对结合口袋进行预计算和裁剪。自定义采样策略：设计了一种特殊的采样器，它能够平衡结合物和诱饵分子的比例，并优先考虑那些信息量大、反差高（即活性差异显著）的实验数据，以鼓励模型学习“活性悬崖”（activity cliffs）——即微小结构变化导致巨大活性差异的现象。鲁棒的损失函数：二元分类任务（结合/不结合）：使用Focal Loss来解决类别不平衡问题（诱饵分子远多于结合物）。连续值回归任务（亲和力大小）：使用Huber Loss，这是一种对噪声数据更鲁棒的损失函数。创新性地同时监督绝对亲和力值和同批次内成对的亲和力差异，并给予后者更高的权重。监督差异值可以有效抵消不同实验条件（如底物浓度）带来的系统性偏差。 4.3 与分子生成器结合的训练 Boltz-2不仅能预测，还能指导新分子的生成。在评估中，Boltz-2被用作一个打分函数（或奖励函数）来训练一个名为SynFlowNet的分子生成器。进一步解释：SynFlowNet的具体架构 SynFlowNet是一个基于GFlowNet的、旨在生成可合成分子的模型。其架构和工作流程如下：核心思想：它将分子生成过程看作一个序列化的决策过程（马尔可夫决策过程，MDP）。每一步，模型都会从一个包含反应类型和化学砌块（building blocks）的动作空间中选择一个动作，来逐步构建最终的分子。输入：模型的输入是当前正在构建的部分分子的图表示。架构：前向策略网络 (PF)：这是模型的核心，通常采用图注意力网络（Graph Transformer）。它接收部分分子的图表示，输出在当前状态下选择每个可能动作（添加某个砌块或执行某个反应）的概率。后向策略网络 (PB)：用于估计从一个完整分子逆向拆解回起始状态的概率。在SynFlowNet中，为了简化，它被设置为一个均匀分布。输出：最终输出的是一个完整的、可以通过预定义反应路径合成的分子。训练：它使用一种名为轨迹平衡损失（Trajectory Balance Loss）的特殊损失函数进行训练，这个损失函数会利用Boltz-2提供的奖励分数来调整前向策略网络，使其更倾向于生成高奖励（高亲和力）的分子。 5 | 性能评估：Boltz-2的实力检验本节将详细介绍Boltz-2在多个维度上的惊人表现，包括结构预测、蛋白质动力学捕捉、结合亲和力预测和虚拟筛选。 5.1 结构预测性能：超越前代，缩小差距 PDB通用评估集：在一个包含2024年和2025年发布的、与训练集显著不同的新结构测试集上，Boltz-2的性能与Boltz-1相当或略有提升。尤其是在RNA链和DNA-蛋白质复合物这些模态上，提升最为显著，这表明大规模蒸馏数据策略对提升模型性能至关重要。与其他模型相比，Boltz-2性能具有竞争力，略优于Chai-1和ProteinX，但稍逊于AlphaFold3。抗体基准测试：在具有挑战性的抗体-抗原结构预测上，Boltz-2相比Boltz-1有中等程度的提升，进一步缩小了开源模型与专有模型（如AlphaFold3）之间的差距。 Polaris-ASAP挑战赛：这是一个针对新冠（SARS-CoV-2）和中东呼吸综合征（MERS-CoV）主蛋白酶配体姿态预测的竞赛。值得注意的是，Boltz-2无需任何微调或额外的物理弛豫，其开箱即用的性能就与竞赛前5名的顶尖选手相当，而这些选手大多使用了微调过的Boltz-1或AlphaFold3模型。 5.2 蛋白质动力学捕捉：更精准的动态视图通过在分子动力学（MD）数据集（mdCATH和ATLAS）的留出簇上进行评估，结果显示： MD方法条件化确实有效，能引导模型生成更多样化的结构，从而更好地捕捉模拟中的构象多样性。在使用MD条件化时，Boltz-2在多个指标上与专门用于此任务的模型（如BioEmu和AlphaFlow）具有竞争力。在衡量局部柔性的RMSF指标上，Boltz-2生成的MD系综与真实MD轨迹的相关性更强，误差更低，优于Boltz-1、BioEmu和AlphaFlow。进一步解释：除了RMSF还有哪些动力学指标？论文中还使用了基于lDDT（local Distance Difference Test）的指标来评估动态系综的质量： Precision lDDT：衡量预测的每个构象与真实MD系综中最接近的构象之间的相似度。高分表示预测的构象都是合理的。 Recall lDDT：衡量真实MD系综中的每个构象是否都能在预测的系综中找到一个与之相似的构象。高分表示模型捕捉到了真实构象的多样性。 Diversity lDDT：衡量预测系综内部构象之间的平均不相似度（1-lDDT）。高分表示模型生成了多样化的构象，而不是单一的、重复的结构。 5.3 关键突破：结合亲和力预测性能媲美FEP 这是Boltz-2最令人瞩目的成就。评估在多个行业公认的、用于“苗头到先导”和“先导优化”的基准数据集上进行。 5.3.1 表现进一步解释：“金标准”FEP及其细节 FEP (Free Energy Perturbation)：自由能微扰是一种基于统计力学和分子动力学模拟的、计算精确的相对结合自由能（ΔΔG）的方法。它通过在一个“非物理”的路径上，将一个配体A逐渐“突变”成另一个配体B，并计算这个过程中的自由能变化，从而得到两者结合能的差异。因其严格的物理基础，被认为是计算化学领域的“金标准”之一。 FEP+：在本文中，FEP+特指一个高质量的基准数据集，也代指一种经过专家手动优化的FEP计算流程。这种流程中，研究人员会根据具体体系和实验结果，反复调整模拟的参数（如力场、输入结构准备、微扰路径等），以达到与实验结果的最大吻合度。因此，它代表了当前（商业）FEP模拟所能达到的最高准确性上限。 OpenFE：与FEP+相对，OpenFE是一个开源的、采用自动化、固定流程的相对FEP方法。它的结果更能代表在没有专家干预的情况下，自动化FEP流程的普遍性能。力场和模拟细节：虽然论文没有详述FEP基线的具体参数，但这类计算通常使用标准的生物分子力场（如AMBER, CHARMM, OPLS）和成熟的MD模拟软件包（如AMBER, GROMACS, NAMD）来进行。 FEP+基准测试： 4-靶点子集：在这个子集上，有多种物理方法的基准可供比较。Boltz-2取得了0.66的平均皮尔逊相关系数（Pearson R），超越了所有廉价的物理方法（如MM/PBSA）和机器学习基线。与FEP的直接对话：最引人注目的是，Boltz-2的性能已经接近了领域“金标准”——FEP和ABFE（绝对结合自由能）模拟，而其计算速度快了超过1000倍！。这在图1的精度-速度Pareto前沿图上得到了清晰的展示。完整OpenFE子集：在包含876个复合物的更大规模OpenFE子集上，Boltz-2的性能同样接近了广泛使用的开源相对FEP方法OpenFE。 CASP16亲和力挑战赛：这是一个严格的盲测基准。竞赛参与者有数周时间，并可使用各种定制化的机器学习和物理工具。然而，Boltz-2在没有任何微调或输入管理的情况下，其性能也明显优于所有排名靠前的参赛者。 5.3.2 模型泛化能力与数据泄漏检验一个常见的担忧是，AI模型的高性能是否仅仅因为它“记住”了训练集中相似的分子？附录中的图10有力地回应了这一质疑。该图分析了FEP+基准测试中，测试化合物与训练集化合物的最大Tanimoto相似度（一种衡量分子结构相似性的指标）和模型预测性能之间的关系。结论是：模型的预测性能与化合物的相似度之间没有显著的相关性。无论测试化合物与训练集中的分子是远亲还是近邻，模型的表现都相对稳定。这强有力地证明了Boltz-2并非简单地“记忆”数据，而是学习到了更普适的、能够泛化到新化学空间的物理和化学规律。 5.3.3 性能的异质性：并非所有靶点都同样出色附录中的图12和图14展示了Boltz-2在公共验证集和私有工业界数据集上，针对每一个具体实验（assay）的性能散点图。这些图揭示了一个重要且真实的结论：Boltz-2的性能在不同靶点和实验之间存在显著的异质性。可以看到，在某些靶点上（如某些激酶），模型的预测值与实验值高度相关（皮尔逊相关系数达0.5+）。然而，在另一些靶点上（如某些GPCR），相关性则要低得多。这种性能的异质性是符合预期的，也与FEP等物理方法的表现类似。它提醒我们，尽管整体性能强大，但在应用于具体的药物研发项目时，仍需评估模型在特定靶点家族或化学空间中的适用性。这也是未来模型迭代和优化的重要方向。真实的工业界挑战：团队还在8个来自Recursion的、代表复杂真实世界药物化学项目的内部盲测数据集上评估了Boltz-2。结果显示，Boltz-2依然大幅超越其他机器学习基线，并在8个项目中的3个上取得了大于0.55的皮尔逊相关性。但同时，在另外5个项目上性能有限，这也提醒我们，公共基准上的强大性能并不总能直接转化为在所有真实世界复杂问题上的成功，这与FEP方法在某些蛋白类别（如GPCR）上也表现不佳的情况类似。 5.4 虚拟筛选：大规模、高精度的苗头发现进一步解释：什么是富集因子？富集因子（Enrichment Factor, EF）是评估虚拟筛选性能的一个常用指标。它衡量的是，在筛选出的化合物排名最靠前的某个百分比（例如前1%）中，真实活性化合物的比例相对于在整个数据库中随机抽样的期望比例高了多少倍。例如，如果一个数据库中有1%的活性分子，而你的方法筛选出的排名前1%的分子中有10%是活性分子，那么富集因子EF(1%)就是10%/1% = 10。富集因子越高，说明模型将真实活性分子“富集”到列表顶部的能力越强，这对于实验验证来说至关重要，因为它意味着可以用更少的实验成本找到更多的苗头化合物。回顾性虚拟筛选：在MF-PCBA数据集（包含多种蛋白家族的高质量生化实验数据）上，Boltz-2展示了强大的苗头化合物发现能力。与之前的机器学习方法、ipTM置信度分数和分子对接相比，Boltz-2几乎将平均精度（Average Precision）翻了一番，并在0.5%的阈值下实现了18.4的富集因子。前瞻性虚拟筛选：为了在更真实的场景中验证Boltz-2，团队进行了一项针对激酶靶点TYK2的前瞻性虚拟筛选。筛选策略：团队不仅筛选了商业化合物库（Enamine的HLL和Kinase库），还利用了前述的Boltz-2 + SynFlowNet的生成式筛选流程，探索了Enamine的760亿规模的REAL Space可合成化合物空间。验证方法：由于没有实验数据，团队使用了他们新近开发的高精度绝对FEP流程Boltz-ABFE来验证筛选出的化合物的亲和力。进一步解释：Boltz-ABFE是什么方法？ Boltz-ABFE是团队新近开发的一种绝对结合自由能（Absolute Binding Free Energy）计算流程。与计算相对结合能的FEP不同，ABFE旨在直接计算一个配体与受体结合过程的自由能变（ΔG），理论上更具挑战性。Boltz-ABFE的创新之处在于，它将AI与物理模拟相结合：它首先使用Boltz-2来预测蛋白质-配体复合物的3D结构，省去了需要实验晶体结构的昂贵步骤，然后将这个AI预测的结构作为输入，运行后续的绝对自由能物理模拟。这是一个端到端的、无需实验结构的ABFE估算流程。筛选结果： Boltz-2成功地从商业库中优先筛选出了高亲和力的配体。生成式筛选流程表现更佳：SynFlowNet生成的所有10个最终候选分子都被Boltz-ABFE预测为能够与TYK2结合，且平均亲和力高于固定库筛选出的分子，同时所需的计算预算远低于对整个HLL库的筛选。新颖性分析：通过与PDB中已知的TYK2抑制剂进行Tanimoto相似性比较，发现SynFlowNet生成的化合物具有显著的新颖性，与已知结合物的最大骨架相似度仅为0.396。前瞻性筛选的结果令人振奋，尤其是生成式筛选流程。附录中的图20-23详细展示了这一流程的成果。更高的亲和力：SynFlowNet生成的10个最终候选分子，经Boltz-ABFE验证，不仅全部被预测为结合物，而且其平均结合自由能比从固定商业库（HLL和Kinase库）中筛选出的最佳分子还要好（见图8）。惊人的新颖性：这真的是AI的创造力吗？附录图22的相似性矩阵和图23的分子对比较给出了肯定的答案。分析显示，SynFlowNet生成的化合物与PDB中所有已知的TYK2抑制剂相比，具有显著的化学新颖性（最大骨架Tanimoto相似度仅为0.396）。有趣的是，模型自主地“发现”并利用了吡咯并嘧啶（pyrrolopyrimidine）这类经典的激酶铰链区结合基序（hinge-binding motif），但同时将这一基序嫁接到了全新的、多样的化学骨架上。这表明Boltz-2不仅是在模仿，更是在进行有意义的、基于化学原理的创新组合。 6 | 局限性尽管Boltz-2取得了巨大成功，但作者也坦诚地指出了模型目前存在的局限性，并计划在未来工作中加以解决：分子动力学模拟：尽管比Boltz-1有进步，但在MD相关任务上并未显著超越其他基线模型。这可能与MD数据集在训练后期才被引入以及模型架构未做大改有关。结构预测挑战：模型在预测大型复合物的复杂相互作用，以及由结合诱导的大规模构象变化方面仍有不足。亲和力预测的依赖性：亲和力模块的准确性高度依赖于上游预测出的3D结构的质量。如果口袋识别错误或界面重构不准，亲和力预测便不可靠。此外，模型目前未明确处理辅因子（如离子、水分子）的作用。亲和力模块适用范围：模型在不同实验和靶点上的性能差异很大，需要进一步研究其性能波动的来源，是源于结构预测不准、对某些蛋白家族泛化不足，还是对分布外的化学空间不够鲁棒。 7 | 结论 Boltz-2作为一个全新的结构生物学基础模型，在结构和亲和力预测两个前沿领域都取得了重大进展。它以更强的物理合理性、更精细的可控性和对局部动力学的更深理解，扩展了其前代产品的共折叠能力。最关键的是，Boltz-2是首个在FEP+基准上，结合亲和力预测准确性接近FEP方法的AI模型，同时提供了数量级的计算效率提升。无论是在回顾性还是前瞻性的评估中，Boltz-2都在药物发现的各个阶段（苗头发现、苗头到先导、先导优化）展现了强大性能。通过与生成模型结合，它更是构建了一个端到端的、经ABFE验证的从头药物设计框架。尽管存在一些局限性，但Bol-2的开源发布无疑为整个社区提供了一个极其强大的新基石。它不仅有望加速现有药物研发流程，更有可能催生全新的计算驱动的发现范式。未来的研究方向可能包括：整合更精细的物理模型、引入实验反馈的强化学习闭环、增强模型的可解释性以及更好地处理蛋白质的柔性等。通过在许可协议下开源Boltz-2及其训练流程，该团队希望能为日益壮大的AI与分子科学交叉领域社区提供一个坚实的基础，共同推动药物发现、蛋白质设计和合成生物学的边界，拓展生物分子建模的计算可能性。参考文献 (部分) Abramson, J., Adler, J., Dunger, J., et al. (2024). Accurate structure prediction of biomolecular interactions with alphafold 3. Nature. Wohlwend, J., Corso, G., Passaro, S., et al. (2025). Boltz-1 Democratizing Biomolecular Interaction Modeling. Ross, G. A., Lu, C., Scarabelli, G., et al. (2023). The maximal and current accuracy of rigorous protein-ligand binding free energy calculations. Communications Chemistry, 6. Wu, Z., Koenig, G., Boresch, S., & Cossins, B. (2025). Optimizing absolute binding free energy calculations for production usage. ChemRxiv preprint. Cretu, M., Harris, C., Igashov, I., et al. (2024). Synflownet: Design of diverse and novel molecules with synthesis constraints. arXiv preprint. Hahn, D. F., Bayly, C. I., Boby, M. L., et al. (2022). Best practices for constructing, preparing, and evaluating protein-ligand binding affinity benchmarks. Living journal of computational molecular science, 4. 更多参考文献请参考原论文下一期我们将深入一些细节。

Machine Learning & AI · 2025-06-07

Mendelevium

Contact

Boltz-2

Boltz-2 vs. FEP? A False Dichotomy. Synergy is the Future

1000x Speedup, FEP-level Accuracy: Deep Analysis of Boltz-2's Binding Affinity Prediction

Boltz-2 Core Network Architecture: Pairformer Trunk Design

Deep Analysis of Boltz-2's Dynamic Structure Modeling: From Ensemble Supervision to Performance Evaluation

MIT Releases Boltz-2: AI Binding Affinity Prediction Matches FEP Performance with 1000x Speedup